El uso de ontologías en propuestas de integración de datos, requiere en mu- chos casos la aplicación de técnicas de alineamiento ontológico, por ejemplo, en los métodos que utilizan el enfoque híbrido o el enfoque de ontología múl- tiple. Se dene el alineamiento ontológico como la tarea de establecer una colección de relaciones binarias entre los vocabularios de dos ontologías [217]. En esencia, un alineamiento es un conjunto de correspondencias, donde cada correspondencia dene la relación entre dos entidades de dos ontologías dife- rentes. Con el amplio uso de las ontologías en el ámbito biomédico, el alinea- miento de ontologías no solo se presenta como una solución a la integración de información, que incluye la integración de datos, esquemas y catálogos, sino como necesaria en la interoperabilidad semántica, unión de ontologías y resolución de consultas. En [218] presentan una clasicación de las técnicas de alineamiento atendiendo al nivel en el que se realiza el alineamiento:
5.2. Tecnologías de Web Semántica en integración 107 • Técnicas a nivel de elemento: incluyen diferentes técnicas que realizan alineamientos atendiendo a atributos y propiedades de los elementos de las ontologías. Incluyen: técnicas basadas en texto, que alinean elemen- tos utilizando sus descripciones textuales asociadas, que son tratadas como secuencias alfabéticas de palabras; técnicas de procesamiento de lenguaje natural, que estudian las propiedades morfológicas del texto asociado a los elementos; técnicas que estudian las restricciones aso- ciados a los elementos, como la cardinalidad; técnicas que estudian los recursos externos asociados con los elementos de la ontología, bajo la premisa de que dos elementos asociados al mismo recurso pueden tener correspondencias; y técnicas que hacen uso de recursos externos forma- les, como ontologías externas, de alto nivel o especícas del dominio, que aportan una semántica compartida que facilita el alineamiento de los elementos.
• Técnicas a nivel de estructura: comparan las entidades o instancias de la ontología utilizando sus relaciones con otros entidades o instancias. Entre las propuestas aquí clasicadas se incluyen las técnicas que con- sideran las ontologías a ser alineadas como grafos etiquetados; técnicas que solo toman en consideración la relación de especialización; técni- cas que utilizan la interpretación semántica de las ontologías a alinear; técnicas que comparan los conjuntos de instancias de dos clases, para comprobar si dichas clases pueden corresponder.
Los lenguajes para expresar alineamientos son variados, es común la utili- zación de lenguajes propios de la Web Semántica, como OWL, que puede ser utilizado para expresar equivalencia entre dos conceptos, o lenguajes de re- glas, como SWRL (SemanticWeb Rule Language) [219]. También se utilizan lenguajes propios, como EDOAL [220], utilizados en la Alignment API [221] en sus últimas versiones, que surgió por la necesidad de tener un lenguaje más expresivo para denir correspondencias más precisas. EDOAL incluye restricciones y transformaciones, lo que permite generar alineamientos más expresivos y hacer una gestión más complejas de las entidades a alinear [220]. Los alineamientos en EDOAL están formados por un conjuntos de cel- das, donde cada celda dene una asociación entre dos entidades. Las en- tidades que una celda asocia pueden ser descripciones de entidades com- puestas y se categorizan en clases, Class, instancias Instance, relaciones (owl:objectProperty) Relation y propiedades (owl:datatypeProperty) Pro- perty. Las entidades pueden ser restringidas, de manera que una celda asocie una clase con unas cardinalidades o valores especícos para sus propiedades y relaciones, y se permite aplicar transformaciones a las entidades de la catego-
ría instancias, como por ejemplo transformaciones de unidad o concatenación de dos cadenas de texto.
5.2.2 Ejemplos de integración
Antes de la aparición de Linked Open Data (LOD), el uso más común de las tecnologías de la Web Semántica para la integración de datos era la cons- trucción de almacenes de datos semánticos y sistemas mediadores utilizando una ontología como esquema global [222]. Un ejemplo es YeastHub [223], un almacén de datos RDF que permite la integración de diferentes tipos de datos genómicos de la levadura, proporcionados por distintos recursos en dis- tintos formatos. El proceso de integración de este almacén de datos sigue los siguientes pasos: (1) descargar los contenidos de la web de cada recurso; (2) convertir los contenidos a RDF, aquellos en formato delimitado por tabula- ciones, con una transformación guiada paso a paso; aquellos en bases de datos relacionales, utilizando D2RQ; (3) almacenar los datos transformados en un almacén de datos RDF. Cuando los datos se cargan en el almacén de datos, las consultas basadas en RDF pueden realizarse para recuperar y consultar los datos de forma integrada.
Con la aparición de los principios de LOD, comenzó la publicación de conjuntos de datos biológicos abiertos en la web siguiendo los principios de Linked Data. Bio2RDF [25] es un ejemplo de conjunto de recursos abiertos publicados según Linked Data, que forman una red federada de puntos de acceso. Bio2RDF usa documentos RDF y una lista de reglas para crear URI que crearán datos enlazados. Convierte los documentos de la web a formato RDF, para ello crea una descripción OWL para cada página HTML y ge- nera la ontología global uniendo todas las ontologías generadas. Creada la ontología, Bio2RDF crea las herramientas que transformarán cada uno de los recursos a RDF, las cuales denirán las correspondencias entre los datos del documento original y los elementos RDF, y normalizarán las URI de cada recurso siguiendo la sintaxis Bio2RDF. Bio2RDF normaliza las URI utilizan- do el mismo patrón, para que los mismos elementos provenientes de distintas fuentes, se generen con la misma URI y, por lo tanto, los enlaces RDF entre entidades queden generados automáticamente.
El sistema OGO [224] es un ejemplo de repositorio integrado de infor- mación biomédica de genes y proteínas ortólogos y sus enfermedades rela- cionadas. La información proviene de distintos recursos heterogéneos (KOG, Inparanoid, OrthoMCL, Homologene y OMIM) y se almacena en una base de conocimiento que toma como modelo una ontología global que dene todo el conocimiento de ortólogos y enfermedades genéticas. La integración de la in-
5.2. Tecnologías de Web Semántica en integración 109 formación siguiendo la semántica de la ontología permite relacionar los genes implicados en una enfermedad genética con sus grupos de ortólogos. La me- todología de integración sigue la transformación de las fuentes heterogéneas siguiendo el método de transformación del sistema OGO [201] comentado en el capítulo anterior, donde las reglas de correspondencia denen cómo se transformar los recursos relacionales de entrada a la representación guiada por una ontología global y las reglas de identidad se utilizan para detectar los individuos que tienen distinta URI pero representan la misma entidad.
En [205] se propone una metodología de integración de datos biológicos haciendo uso de tecnologías de la Web Semántica. En su sistema utilizan la propuesta de almacén de datos para construir un repositorio central con todos los datos agregados. La información a integrar está formada por datos sobre genes y sus productos, originalmente en formatos RDF, OWL, tabular y bases de datos relacionales. Las nuevas descripciones RDF utilizadas en el proceso de transformación toman su vocabulario de una nueva ontología denida, llamada Biowl. Además de esta ontología propia, se utiliza GO y la ontología core.owl denida por UniProt. Estas tres ontologías se unican en una, por medio de la denición de equivalencias entre sus clases y propiedades de forma manual y con herramientas externas. Para identicar los distintos recursos relacionados entre sí, se utiliza la información de relaciones entre recursos disponible en bases de datos como Ensembl, KEGG y NCBI y se denen correspondencias a mano. El resultado nal es una base de conocimiento que puede ser consultada con SPARQL.
El proyecto Semantic Enrichment of the Scientic Literature (SESL) [225] se enfoca en la integración y compartición de información sobre diabetes me- llitus tipo 2 (T2DM) en adultos. En el proyecto se integra literatura cientíca con los recursos biomédicos UniProt Knowledgebase (UniProtKB) [76], Gene Expression Atlas [226] y OMIM [169]. El proyecto utilizó un total de 20.168 publicaciones sobre T2DM, a los cuales se les aplican procesos de minería de texto para identicar oraciones y bloques de texto y se anotan con termi- nologías estandar sobre enfermedades y proteínas. En concreto, los nombres de genes y proteínas se identican utilizando LexEBI [227], mientras que la identicación de enfermedades se realiza utilizando terminologías de UMLS [82]. Todas las oraciones que contienen un par que incluye un gen y una en- fermedad se identican e integran en un repositorio de tripletas de SESL. El repositorio UniProtKB, cuyo contenido está disponible como repositorio de tripletas, se procesa y reduce para obtener sólo el contenido sobre proteínas humanas. Los datos provenientes de Gene Expressión Atlas y las enferme- dades importadas desde OMIM se normalizan utilizando UMLS, Gene Ex- pressión Atlas está anotado con Experimental Factor Ontology [228], por lo
que las anotaciones se normalizan con anotaciones de Disease Ontology [229] para usar las correspondencias de UMLS.
Los sistemas de integración de recursos heterogéneos deben ser capaces de identicar las instancias que representan a una misma entidad y conectar- las entre sí, así como normalizar los vocabularios utilizados en el nombrado de las entidades. Los sistemas ejemplo aquí presentados identican unívoca- mente a los individuos a través de la normalización de las URI y realizan una identicación de las equivalencias de forma manual. El sistema OGO se basa en la denición de reglas sobre la ontología global que modela el dominio para denir los requisitos de identidad. Para la normalización de vocabularios, los sistemas seleccionan un vocabulario común dado por una terminología seleccionada, y realizan la normalización de los datos de entrada a dicha terminología.
5.3 Discusión
Las arquitecturas de integración más comunes se pueden dividir entre aque- llas que realizan una integración física de los repositorios fuente, mediante extracción de datos e integración en un repositorio común (almacenes de da- tos), y aquellas que realizan una integración virtual, dónde las consultas se realizan sobre un modelo común pero los datos se mantienen en sus reposi- torios de origen (sistemas basados en mediadores). El tercer tipo de sistemas más común aprovecha la existencia de recursos disponibles en la web para denir una integración basada en enlaces entre los datos.
Con la irrupción de las tecnologías de la Web Semántica se ha generalizado el uso de las ontologías en los sistemas de integración, siendo muy común su utilización para modelar el esquema global de integración de distintos recursos. Estos hace que técnicas como el alineamiento de ontologías también cobren importancia en los sistemas de integración.
La aparición de los principios de Linked Open Data (LOD) ha fomentado la publicación de recursos en formato semántico que siguen los principios de LOD. En general, para la publicación de los recursos se crean soluciones pro- pias a los recursos a integrar. Los procesos de transformación, normalización e integración son propios y dedicados a cada fuente de datos y dependen en gran parte de la intervención manual para resolver los conictos de modelado. Existe pues, una carencia de soluciones genéricas de integración, aplicables a distintas fuentes de datos y distintos formatos de representación e indepen- dientes del dominio de aplicación.
Capítulo 6
Objetivos
6.1 Motivación
La medicina traslacional requiere la explotación integrada de información biomédica para dar soporte a la investigación, sin embargo, la generación continuada de datos biomédicos por distintas instituciones, y su represen- tación y gestión utilizando sistemas propios, lleva a la situación de tener el conocimiento distribuido y representado de forma heterogénea.
Varias propuestas han surgido para mejorar esta situación. Los estánda- res de HCE y las terminologías clínicas surgen con el objetivo de normalizar la información clínica de forma que pueda ser intercambiada y entendida por los distintos sistemas. Estándares y especicaciones de HCE como ISO 13606, openEHR, HL7 o CEM, basados en una arquitectura dual, surgen con el propósito de facilitar la interoperabilidad semántica de la información clínica. Además, la información biomédica es anotada y codicada utilizando conceptos procedentes de terminologías y ontologías estandarizadas. Sin em- bargo, la variedad de estándares y terminologías utilizados por las distintas instituciones perjudica la consecución de la interoperabilidad semántica, por lo que se hace necesario la utilización de técnicas adicionales para lograr la explotación conjunta de la información.
Entre las propuestas para dar solución a estos problemas, el uso de las tec- nologías de la Web Semántica para la representación, gestión y compartición de la información biomédica es muy común. Las ontologías biomédicas, como Gene Ontology, son ampliamente utilizadas en la anotación de información biológica, y han aparecido iniciativas como OBO Foundry, para la estanda- rización del diseño de ontologías biomédicas, y BioPortal, como repositorio de gestión de las mismas. En el ámbito clínico, algunas iniciativas para la representación de modelos clínicos utilizando OWL han demostrado la uti- 111
lidad de este lenguaje para la gestión y explotación del conocimiento, pues permite realizar actividades semánticas como el uso de razonamiento para la obtención de conocimiento. Por otro lado, iniciativas como Linked Open Data proponen la publicación de datos en la web bajo unas condiciones que facilitan su consulta, explotación y combinación con otras fuentes.
Muchas propuestas ofrecen métodos para la transformación de informa- ción a una representación semántica basada en lenguajes como OWL o RDFS, al igual que existen muchos proyectos de creación de sistemas integrados de información biomédica para dar soporte a estudios e investigaciones cientí- cas. Sin embargo, estas soluciones presentan algunas limitaciones. Se trata de metodologías propias, orientadas a formatos de representación y recursos concretos, y por lo tanto, poco exibles a la hora de adaptarse a distintos tipos de recursos y problemas. Por otro lado, las herramientas de gestión de modelos clínicos existentes no aprovechan las ventajas de las tecnologías semánticas y no permiten hacer una gestión integrada de modelos clínicos, terminologías y datos.
En este trabajo se proponen soluciones para la explotación integrada de información biomédica haciendo uso de tecnologías de la Web Semántica. La solución propuesta se basa en (1) un modelo genérico de transformación, basado en la denición de reglas de transformación entre esquemas de repre- sentación de contenido, (2) un modelo de integración basado en el modelo de transformación y una arquitectura ontológica basada en ontologías y pa- trones de diseño ontológico de contenido, (3) una plataforma de integración y explotación de información biomédica, que permita realizar una gestión controlada basada en explotación de la representación semántica de datos y modelos clínicos.
6.2 Objetivos
El objetivo principal de esta tesis es la investigación y desarrollo de soluciones basadas en las tecnologías de la Web Semántica para la integración y estanda- rización de conocimiento biomédico utilizado en medicina traslacional. Para conseguir este objetivo se denen las siguientes tareas:
• Diseño e implementación de un modelo de transformación genérica de datos entre esquemas de representación estructurados.
• Diseño e implementación de un modelo de integración de información biomédica heterogénea.
6.3. Hipótesis 113 explotación de información biomédica, que permita el acceso integrado a información biomédica procedente de las HCEs y recursos externos, y que haga uso de tecnologías de la Web Semántica para la explotación del conocimiento.
• Aplicación y validación de los resultados obtenidos por medio de la transformación e integración de recursos biomédicos heterogéneos, su integración en la plataforma de gestión de información biomédica y su explotación en actividades de uso secundario de información biomédica.
6.3 Hipótesis
La hipótesis principal de esta tesis es que mediante el uso de tecnologías de la Web Semántica se puede generalizar la integración de información biomédica proveniente de recursos heterogéneos y facilitar la gestión de modelos y datos clínicos. Esta hipótesis se divide en las siguientes sub-hipótesis:
• Es posible la denición de un método de transformación de información biomédica guiado por el dominio de salida a tra- vés del uso de reglas de transformación y patrones de diseño. Comprobar esta hipótesis requiere contestar a las siguiente preguntas: 1. ¾Qué representaciones son las más comunes en los sistemas de
información biomédica?
2. ¾Cuáles son los métodos de transformación de recursos a repre- sentación semántica y qué problemas tienen asociados?
3. ¾Qué componentes denen un modelo de transformación genérico? 4. ¾Qué ventajas y facilidades traen el uso de reglas de transforma-
ción y patrones de diseño en el modelo de transformación?
• La aplicación del modelo de transformación genérico para la transformación a una representación OWL permite denir un proceso de integración genérico para información proveniente de fuentes heterogéneas. Comprobar esta hipótesis requiere contes- tar a las siguiente preguntas:
5. ¾Qué técnicas de integración de recursos heterogéneos existen y cuáles son sus problemas asociados?
6. ¾Cómo se pueden generalizar los procesos de integración para que sean aplicados a cualquier recurso de información?
7. ¾Cómo mejoran las tecnologías de la Web Semántica la integración de recursos heterogéneos?
• Mediante la aplicación del proceso de integración denido y métodos basados en tecnologías de la Web Semántica se fa- cilita la explotación integrada del conocimiento incluido en los recursos biomédicos y el uso secundario de la información. Comprobar esta hipótesis requiere contestar a las siguiente preguntas: 8. ¾Qué tareas son clave en la gestión, explotación y uso secundario
de la información biomédica?
9. ¾Cómo el uso de representación semántica basada en ontologías OWL facilita las tareas de gestión de información biomédica y su uso secundario?
6.4 Metodología
La metodología a seguir se basa en el estudio del estado del arte, la for- malización de los métodos propuestos en esta tesis, su implementación y su validación en un dominio de aplicación.
• Estudio del estado del arte:
Información biomédica: estudio de los formatos de representación más comunes de la información biomédica. Esto engloba estánda- res y especicaciones para la HCE, poniendo mayor interés en aquellos basados en arquitectura de dos niveles, es decir, ISO 13606, openEHR, HL7 y CEM; representación y gestión de mo- delos clínicos (arquetipos); representación más común de bases de datos biológicas; y terminologías biomédicas.
Web Semántica: estudio de las tecnologías de la Web Semántica, RDF, lenguaje OWL, propuestas de Linked Data para la publica- ción de datos y técnicas de ingeniería ontológica para la creación reutilización de ontologías. Además del estudio de las ontologías biomédicas disponibles, su utilización más común y las propues- tas existentes para su creación y gestión, así como estudio de las propuestas existentes de representación ontológica de estándares de la HCE y herramientas relacionadas.
Transformación de contenidos a representación semántica: análisis de las propuestas existentes para obtención de representaciones RDF/OWL de datos almacenados en repositorios no semánticos.
6.4. Metodología 115 Integración de información: estudio de las propuestas existentes para la integración de repositorios heterogéneos, así como la apli- cación de ontologías en este ámbito.
• Formalización de la propuesta:
Desarrollo de una metodología de transformación genérica. La transformación está guiada por la denición de reglas de trans-