• No results found

Chapter 5 Discussion and recommendations

5.3 Contributions

Por otra parte, esperamos extender este trabajo, utilizando la versión actualizada de la base de datos COGs [8], la cual cuenta actualmente 66 organismos en lugar de los 43 de la versión utilizada en este trabajo, además, del ofrecimiento del equipo de investigadores del Departamento de Ingeniería Celular y Biocatálisis, del Instituto de Biotecnología de la UNAM, de compartir bases de datos actualizadas de perfiles filogenéticos de los genomas de organismos recientemente secuenciados, ya que si se tiene un mayor número de perfiles de proteínas (COGs), es probable que el espacio de agrupamiento sea más homogéneo y se eviten la sobre-presentación del espacio de los patrones, pues se sabe que el método de perfiles filogenéticos es más exacto en la inferencia de funciones, si se trabaja con perfiles de mayor longitud y mejor representados en un grupo de organismos en particular. Otro aspecto que se desea explorar, es la propuesta que se hace en Fuzzy c-means method for clustering microarray data [13], para determinar el valor adecuado de m, en función de la distribución de distancias entre genes en un conjunto dado y evitar con ello agrupamientos con rangos de valor de pertenecía muy dispares; es decir, valores muy próximos entre sí y valores demasiado alejados unos de otros en el mismo agrupamiento.

En un posible trabajo a futuro, prevemos la asignación de pesos a las co-ocurrencias de una proteína en perfil filogenético dado, dependiendo si éstas ocurren, ya sea únicamente en arqueas, eucariotas o procariotas y si se trata de genomas de organismos cercanos o lejanos, pues los perfiles filogenéticos son más informativos si estos son construidos a partir de organismos evolutivamente cercanos, para que estos puedan ser relacionados adecuadamente. Este enfoque ha aparecido en algunos trabajos de optimización del método de perfiles filogenéticos, donde se incorpora información evolutiva relevante, lo cual permitirá aumentar la exactitud del método [32] [33].

Por otro lado, se prevé explorar el uso de la teoría de relaciones difusas y de la operación de la composición con el fin de encontrar nuevas asociaciones funcionales de forma indirecta, es decir, la composición de dos relaciones binarias difusas representadas por sus

funciones de membresía, nos permitiría encontrar relaciones entre las proteínas de cada uno de los grupos que se hayan formado inicialmente y que en un principio parecerían no estar muy relacionadas entre sí, pero que al momento de realizar la composición entre ellas podríamos encontrar efectivamente relaciones nuevas.

Así como la comparación contra otros métodos de agrupación como el agrupamiento jerárquico.

Esto sería posible, en cuanto se tuvieran conjuntos difusos más finamente relacionados entre sí, dicho de otra forma, que no hubiera grupos con elementos (perfiles) demasiado alejados del patrón principal, para que cuando se hiciera la composición de relaciones difusas el resultado fuera un nuevo grupo con asociaciones funcionales más certeras [8].

GLOSARIO TÉRMINOS BIOLÓLOGICOS

Análisis estructural: Se entiende por análisis estructural, aquél que hace una descripción básica de los elementos que componen al genoma y cómo están organizados, por ejemplo, la identificación y localización de genes.

Arquea: Las arqueas son los organismos considerados como los más similares relacionados con la vida arcaica en la Tierra. Probablemente, microbios parecidos a las arqueas fueran los que prevalecían en aquél entonces cuando los orgánicos eran escasos y el hidrógeno era más abundante.

BBHs: Bidireccional Best Hits usado frecuentemente como un sinónimo de ortología. Por definición, dos proteínas son ortólogas si han evolucionado a partir de un mismo ancestro. Típicamente, genes o proteínas ortólogas tienen la misma función.

Bias: Parámetro que funciona como ajuste fino de las neuronas, semejante la término independiente de la ecuación de una recta.

Bioinformática: Área que combina el conocimiento del análisis computacional y datos biológicos.

Bit: En código binario un bit se representa con 0 ó 1.

COGs database: Es una base de datos de una familia de proteínas conservadas o COG, que contienen grupos de proteínas que son ortólogas.

Eucariota: Se dice de la célula con envoltura nuclear, que se distingue de la procariota porque posee un verdadero núcleo, es decir, sus cromosomas están encerrados en una región del protoplasma llamada carioplasma, separada del resto por una membrana. Todos los organismos pluricelulares están compuestos de células eucariotas, así como gran número de los unicelulares, con excepción de las bacterias y cianofíceas.

Gen: Unidad de herencia, partícula de material genético que determina la herencia de una característica determinada o de un grupo de ellas. Los genes están localizados en los cromosomas en el núcleo celular y se disponen en línea a lo largo de cada uno de ellos.

Homología: Dos genes o sus correspondientes productos génicos son homólogos cuando poseen similitud entre sí, evaluada mediante algoritmos tales como el de Smith-Waterman, BLAST o FASTA.

KEGG: Es la Kyoto Enciclopedia of Genes and Genomes y está centrada fundamentalmente en la comparación de genomas en cuanto a su capacidad para codificar diferentes rutas metabólicas.

Motif: En genética, una secuencia motif es un patrón de secuencia de nucleótido o amino- acido, que esta extendida y tiene, o se conjetura que tiene, una significancia biológica.

NCBI: Son las siglas de National Center for Biotechnology Information, es un recurso del Instituto Nacional de Salud y de la Biblioteca Nacional de Medicina de Estados Unidos, sobre información de biología molecular. Cuyas funciones son: proveer de bases de datos públicas, conducir investigaciones en biología computacional, desarrollar herramientas de software para el análisis de datos genómicos y diseminar información biomédica.

Operón: Los operones son paquetes coherentes de ADN de procariotas, en los cuales se encuentran genes con funciones interrelacionadas; por ejemplo, en la bacteria Escherichia coli (E. coli) se identifican setenta y cinco operones diferentes que controlan 250 genes estructurales.

Ortologo: La ortología de dos genes o sus correspondientes productos génicos se dan cuando la similitud deriva de una ascendencia común (relación vertical), asumiendo que éstas tienen la misma función.

Paralogo: Son parálogos cuando dos genes o sus correspondientes productos génicos poseen una la similitud que se produce dentro del mismo genoma por duplicación de un gen (relación horizontal) se asume que dos genes ortólogos tienen la misma función, mientras que los genes parálogos, puesto que se han originado por duplicación y posterior divergencia, deben tener diferente función o, al menos, cierto grado de especialización.

Procariota: Forma de organización celular que se caracteriza por la ausencia de núcleo y cuyo único cromosoma, formado por una cadena de ADN, no está separado del resto de los organismos celulares. Procariotas son por ejemplo, las bacterias y las algas cianofíceas.

Proteína: Las proteínas son los productos o expresión de los genes. Las proteínas están formadas por cadenas de unidades que se denominan aminoácidos y la secuencia de bases presente en el ARN determina la secuencia de aminoácidos en la proteína por medio del código genético.

STRING: Base de datos computarizada global de exploración y análisis que utiliza varios métodos de contexto geonómico para asociación funcional de genes: vecindad de genes, fusión de genes, co-ocurrencia (perfil filogenético), co-expresión de genes, experimentos, bases de datos y minería de datos; en la cual se puede establecer cuatro niveles de valor de confianza (bajo, medio, alto y muy alto) y desplegar de 10 a 50 asociaciones funcionales.

REFERENCIAS

[1] Wren, J. “The emerging in silico scientist how text-based bioinformatics is bridging biology and

artificial intelligence.” IEEE Engineering in Medicine and Biology Magazine, pp.87-93, 2004.

[2] Tamames, J. “Métodos comparativos basados en homología” Disponible en:

http://www.pdg.cnb.uam.es/cursos/BioInfo2002/pages/GenePred_and_GenoComp/2_1_AnalComp Genom.html

[3] Sali, A. “Functional links between proteins.” Nature, Vol.402, pp.23-26, 1999.

[4] Marcotte, E., Pellegrini, M. et al. “A combined algorithm for genomewide prediction of protein

function.” Nature, Vol. 402, pp.83-86, 1999.

[5] Marcotte, E. “Computational genetics: finding protein function by nonhomology methods”.

Current Option in Structural Biology. Vol.10, pp.359-365, 2000.

[6] Pellegrini, M., Marcotte, E. et al. “Assigning protein function by comparative genome analysis:

Protein phylogenetic profiles” PNAS, Vol.96, pp.4285-4288, 1999.

[7] Eisenberg, D., Marcotte, et al. E. “Protein function in the post-genomic era.” Nature, Vol. 405,

pp. 823-826, 2000.

[8] Klir, J. Fuzzy set theory: foundations and applications. Prentice Hall, 1997.

[9] Bezdek, J.C. Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press,

1981.

[10] Brío del, B. y Sanz, A. Redes neuronales y sistemas difusos. Alfaomega, 2001.

[11] Chang, B.C. “Halgamuge, S.K. Protein motif extraction with neuro-fuzzy optimization.”

Bioinformatics, Vol.18, pp.1084-1090, 2002.

[12] Cordón O., Gomide F. et al. “Ten years of genetic fuzzy systems: current framework and new

trends” Fuzzy Sets and Systems, Vol.14, pp.5-31, 2004.

[13] Dembélé, D. y Kastner, P. “Fuzzy c-means method for clustering microarray data.”

Bioinformatics, Vol. 19, pp.973-980, 2003.

[14] Torres, A. y Nieto, J. “Fuzzy logic in Medicine and Bioinformatics.” Journal of

Bioinformatics and Biotechnology, ID 91908, pp.1-7, 2006.

[15] Wu, J., et al. “Identification of functional links between genes using phylogenetic profiles.”

Bioinformatics, Vol. 19(12), pp.1524-1530, 2003.

[16] Mering von, Ch., Bork, P. et al. “STRING: known and predicted protein-protein associations,

integrated and transferred across organisms.” Nucleic Acids Research, Vol.33, pp.433-437, 2005.

[18] Klir, J. y Yuan, B. Fuzzy Sets and Fuzzy Logic, Prentice Hall, 1995.

[19] Yager, R. y Filev, D. Essentials of fuzzy modeling and control. John Wiley & Sons, 1994.

[20] Wen-Yuan, L., et al. “Study on combining subtractive clustering with fuzzy c-means

clustering.” Proceedings of the Second International Conference on Machine Learning and

Cybernetics, Vol.5, pp.2659-2662, 2003.

[21] Chiu, S. “Fuzzy model identification based on cluster estimation.” Journal of Intelligent and

Fuzzy Systems, Vol.2, pp.267-278, 1994.

[22] Vert, J. “A tree kernel to analyze phylogenetic profiles.” Bioinformatics, Vol. 18, pp.S276-

S284, 2002.

[23] Sun, J. Xu et. Al. “Refined phylogenetic profiles method for predicting protein-protein

interactions.” Bioinformatics, Vol.21, pp.3409-3415, 2005.

[24] Mering von, Ch., Bork, P. et al. “STRING: a database of predicted functional associations

between proteins.” Nucleic Acids Research, Vol.31, pp.258-261, 2003.

[25] Tatusov, L. et al. “The COG database: new developments in phylogenetic classification of

protein from complete genomes.” Nucletic Acids Research, Vol. 29, No.1, 2001.

[26] Eisenberg, D. y Marcotte, E. “Protein function in the post-genomic era.” Nature, Vol.405,

pp.823-826, 2000.

[27] Goldberg, D. Genetic algorithms in search, optimization, and machine learning. Addison-

Wesley, 1989.

[28] Bezdek, J. y Hathaway, Richard J. “Optimization of fuzzy clustering using genetic algorithms.”

IEEE-WCCI, pp.589-593, 1994.

[29] Magdalena, L. et al. “Generación de particiones difusas mediante técnicas de agrupamiento

mejoradas con algoritmos genéticos.” UPM-CICYT, 1997.

[30] Xiaohong, Y. y Ganesan, K. “An application of fuzzy clustering to software quality

prediction.” IEEE, 2000.

[31] Jang J. et al. Neuro-fuzzy and soft-computing. Prentice Hall, 1997.

[32] Chin-Teng L. y Lee, G. Neural fuzzy systems. Prentice Hall, 1996.

[33] Salgado, H. “Operons in Escherichia coli: Genomic analyses and predictions.” PNAS, Vol. 97,

pp.6652-6657, 2000.

[34] Tiedeman, A., Keyhani, J. et al. “Nucleotide sequence analysis of the purEK operon encoding

5’-phosphoribosyl-5-aminoimidazole carboxylase of Escherichia coli K-12.” Journal of

[35] Snel, B., Lehmann, G., Bork, P. y Huynan, M. “STRING: a web-server to retrieved and display

the repeatedly occurring neighborhood of a gene.” Nucleic Acids Research, Vol. 28, pp.3442-3444,

2000.

[36] Huynen, M., Bork, P. et al. “Predicting Protein Function by genomic context: quantitative

evaluation and qualitative inferences.” Genomic Research, pp.1204-1210, 2000.

[37] Sammon J. “A Nonlinear Mapping for Data Structure Analysis.” IEEE Transactions on

Computers, Vol.c-18, pp.401-409, 1969.

[38] MacQueen, J., et al. “Some Methods for classification and Analysis of Multivariate

Observations.” Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and

Probability, Vol.1, pp.281-297, 1967.

[39] Marcotte, E., Xenarios, I., et al. “Localizing proteins in the cell from their phylogenetic

profiles.” PNAS, Vol. 97, pp.12115-12120, 2000.

[40] Dybowki, R., Collins, T. y Weller, P. “Visualization of binary string convergence by Sammon

Mapping.” MIT Press, pp.377-384, 1996.

[41] Duester, G., Campen, R. et al. “Nucleotide sequence of an Escherichia coli tRNA (Leu1)

operon and identification of the transcription promoter signal.” Nucleic Acids Research, Vol. 9,

pp.2121-2139, 1981.

[42] Pavy, N., Rombauts, S., et al. “Evaluating of gene prediction software using a genomic data

set: application to Arabidopsis thaliana sequences.” Bioinformatics, Vol.15, pp.887-899, 1999.

[43] Devos, D., y Valencia, A. “Practical limits of function prediction. Proteins: Structural Function

Genetic.” Vol.41, pp.98–107, 2000.

[44] Overbeek, R. y Fonstein, M. et al. “The use of gene clusters to infer functional coupling.”

PNAS, Vol.96, pp.2896-2901, 1999.

[45] Huynen, M. y Bork, P. “Measuring genome evolution.” Proceeding National Academy

Science, Vol.95, pp.5849-5856, 1998.

[46] Wang, L. Adaptative fuzzy systems and control. Pretince Hall, 1994.

[47] Poggio, T. y Girosi F. “Networks for approximation and learning.” Proceeding of the IEEE,

pp.1481-1497, 1990.

[48] Klawonn, F. y Kruse, R. “Constructing a fuzzy controller from data.” Fuzzy Sets and Systems,

Vol.85, pp.177-193, 1997.

Related documents