• No results found

Chapter 4. Discussion

4.1 Theoretical Implication

En el caso de geles de proteínas, 2D-DIGE (sección2.3.1), usualmente la identifi- cación de proteínas termina con ID del tipoPROTEIN_GI_ACCESSION(GI), como se aprecia en la figura 3.3. Este tipo de identificador se encuentra disponible en una de las bases de datos de proteínas de mayor difusión, como es el caso de

UniProt (Apweiler et al.,2004). Este consorcio posee un sitio web en el cual se pue-

den realizar conversiones de identificadores de formamanual, accediendo a la página www.uniprot.org/?tab=mapping. También proporciona una interfaz para acceder de forma programática a través de consultas mediante URLs (del inglés, Uniform Resource Locator), representada por la línea de trazo discontinuo de la figura 3.3. Estos URLs son similares a los que se generan en la barra de dirección del explorador de internet (FireFoxR, ChromeR, etc.), cuando el usuario hace clicks en la página

web. La ventaja de la interfaz programática es que la información se obtiene utilizan- do el mismo protocolo y puerto que el usuario utilizaría para navegar por internet. Es decir, no requiere ninguna configuración de firewall y/o proxies adicional para su utilización. A su vez, los resultados de la consulta pueden ser depurados creando el URL correspondiente, desde la pestaña de conversión del sitio web de Uniprot.

En esta tesis se desarrolló un conjunto de rutinas escritas en lenguaje R (R Core Team, 2013), que utilizan la librería RCurl (Lang, 2013a) para acceder de forma programática a la interfaz de UniProt. Estas rutinas se encuentran disponibles en el anexo digital uniprot.R de la sección A.1.1. Para utilizarlo, es necesario cargar en memoria el módulo con el comando source.

>source("uniprot.R") >names(uniprot)

3.2. Consistencia e integridad de anotación 75

Este módulo cuenta con el objeto uniprot, que posee diferentes atributos como por ejemplo: cuál es la dirección web Base de la interfaz (www.uniprot.org), qué herramientas (Tool) están disponibles (anotación, consulta, convertidor), cual es el formato (Format) de los reportes (.txt, .tab, etc.), las columnas (Columns) selecciona- das por defecto, etc. A través del objetouniprot, es posible generar consultas desde R para luego obtener los resultados de una búsqueda (Query) o de la conversión de IDs (Mapping).

Por ejemplo, es posible definir dosprotein_gi_idscomo"119577981"y"29462", para convertirlos a identificadores del tipo UniProtKB AC, consultando al objeto

uniprot$Mapping$Mapper: >protein_gi_ids<-c("119577981", "29462") >out<-uniprot$Mapping$Mapper(ids=protein_gi_ids, from=uniprot$Mapping$From["GI number*"], to=uniprot$Mapping$To["UniProtKB AC"]) >out$tab From To 1 119577981 B2ZZ90 2 29462 P09486

La salida de la consulta se almacena en el objeto out, donde el texto separado por tabulaciones de la conversión se encuentra en el campo $tab. En esta consulta fue posible convertir los dos identificadores, solicitados en la columna From, obteniendo la respuesta en la columna To.

Adicionalmente, es posible acceder a la información de anotación asociada a los IDs de las proteínas convertidas en las bases de conocimiento de Uniprot cura- das (Swiss-Prot) y no curadas (TrEMBL), utilizando los campos establecidos por defecto: Entry, Entry name, Status, Protein names, Gene names, Organism

y Length. En este ejemplo en particular se obtiene la siguiente tabla:

> rbind(out$uniprotReviewedYes, out$uniprotReviewedNo) Entry Entry name Status

1 P09486 SPRC_HUMAN reviewed 2 B2ZZ90 B2ZZ90_HUMAN unreviewed

76 Capítulo 3. Aportes realizados al análisis ontológico-funcional desde la MD

Protein names 1 Secreted protein acidic and rich in cysteine 2 Acetyl-Coenzyme A carboxylase alpha

Gene names Organism Length

1 SPARC ON Homo sapiens (Human) 303 2 ACACA hCG_30204 Homo sapiens (Human) 2346

A su vez, este tipo de salida también puede ser ajustada (formato de salida, campos del reporte, etc.) dependiendo de las necesidades del usuario, como se describe en la ayuda del anexo digital A.1.1.

Una vez determinada la identidad de los GI IDs, en términos de identificadores de

Uniprot, es posible realizar una nueva conversión pero ahora utilizando los últimos

como punto de partida, a los efectos de obtener losEntrez Gene (GeneID)buscados por la metodología propuesta, como se muestra a continuación:

>out<-uniprot$Mapping$Mapper(ids=out$tab$To,

from=uniprot$Mapping$From["UniProtKB AC/ID"], to=uniprot$Mapping$To["Entrez Gene (GeneID)"]) >out$tab

From To 1 B2ZZ90 31 2 P09486 6678

En este ejemplo la conversión utilizando la herramienta propuesta fue exitosa, como se aprecia en la salida de out$tab. Bajo este esquema de trabajo, es posible con- vertir la totalidad de proteínas candidatas de forma programática, evitando que el investigador acceda de forma manual, maximizando así el tiempo de procesamiento e información de anotación disponible.

En el caso que no se hayan convertido los IDs provistos, es posible realizar una consulta (Query) utilizando diferentes criterios de búsqueda dependiendo de la infor- mación que se tenga disponible: símbolo, descripción, etc. Continuando con el ejem- plo anterior, en el caso de disponer del símbolo “SPARC”, y conociendo que se está trabajando con proteínas humanas, con ayuda de la interfaz web, el usuario puede

3.2. Consistencia e integridad de anotación 77

explorar las diferentes alternativas de búsqueda avanzada que cumplan sus necesi- dades. En el ejemplo en cuestión puede seleccionar los campos “gene” y “organism” para especificar la siguiente consulta: gene:SPARC AND organism:"Homo sapiens [9606]". Esta consulta es convertida automáticamente en formato compatible de URL, es decir, transforma los caracteres especiales: dos puntos por %3A, espacios por “+” y comillas dobles por %22, como se muestra a continuación ($Query):

>query<-"gene:SPARC AND organism:\"Homo sapiens [9606]\"" >uniprot$Query(query=query)

$Query

"query=gene%3ASPARC+AND+organism%3A%22Homo+sapiens+[9606]%22" $Data

Entry Entry name Gene names Status

1 P09486 SPRC_HUMAN SPARC ON reviewed 2 D3DQH8 D3DQH8_HUMAN SPARC hCG_39149 unreviewed 3 E5RK62 E5RK62_HUMAN SPARC unreviewed 4 F5GY03 F5GY03_HUMAN SPARC unreviewed 5 E5RJA5 E5RJA5_HUMAN SPARC unreviewed 6 F5H4E2 F5H4E2_HUMAN SPARC unreviewed 7 Q6QE20 Q6QE20_HUMAN SPARC unreviewed

Protein names

1 Secreted protein acidic and rich in cysteine

2 Secreted protein, acidic, cysteine-rich (Osteonectin), isoform CRA_a

3 SPARC (Fragment)

4 SPARC (Fragment)

5 SPARC (Fragment)

6 SPARC (Fragment)

7 Cysteine-rich protein (Fragment)

donde se aprecia que en la primera fila de $Data se encuentra la información de la misma proteína obtenida con anterioridad. Así, el investigador puede personalizar la consulta dependiendo de la precedencia de sus datos y reducir los resultados posibles. Si fuera el caso, es posible especificar valores en campos adicionales como por ejemplo elegir sólo las proteínas curadas (Status=reviewed).

78 Capítulo 3. Aportes realizados al análisis ontológico-funcional desde la MD

Las funcionalidades deMapper y Query implementadas en uniprot.R, permiten acceder a la interfaz de Uniprot y realizar diferentes operaciones para la conver- sión y consulta de proteínas, dependiendo de los datos que el usuario posea. Este módulo facilita la consulta programática a la interfaz web de Uniprot, automati- zando las diferentes operaciones que pueda realizar el investigador. La salida de este módulo consiste en una tabla de anotación con los EntreZ Gene ID y en una con

Protein GI. En el mejor de los casos, todos los identificadores fueron exitosamente

convertidos.

Related documents