• No results found

6. Discussion

6.7 Concluding Comment

Dadas dos ontologías, O1 y O2, la alineación se define como el proceso de creación de

correspondencias en la forma (c1, c2, s), donde c1 O1 y c2 O2 son los conceptos de las dos

ontologías y s ∈ [0,1] es la similitud estimada entre los dos conceptos (también llamada confianza de correspondencia). Una alineación entre dos ontologías O1 y O2 es un conjunto de

correspondencias, donde cada correspondencia se define como: A (O1, O2) = {(c1, c2, s) | c1O1, c2 O2, s [0,1]}. Las correspondencias también pueden tener la forma extendida (c1, c2, s, r), donde r es el tipo de relación (por ejemplo equivalencia o generalización), o una forma reducida (c1, c2), donde el coeficiente de correspondencia no se especifica. La Figura 2.1

muestra gráficamente el proceso de alineación de ontologías.

Figura 2.1. Alineación de ontologías

Alineaciones Ontologías Proceso de Alineación

46 Alineación de Ontologías en la Web Semántica

Se han desarrollado muchas técnicas diferentes para la implementación del proceso de alineación de ontologías, que pueden clasificarse en función de las muchas características que se pueden encontrar en las ontologías (e.g. etiquetas, estructuras, instancias, semántica…) [Shvaico y Euzenat, 2004], o respecto al tipo de disciplinas que se utilizan (e.g. estadística, combinatoria, semántica, lingüística, aprendizaje automático…) [Rahm y Bernstein, 2001; Kalfoglou y Schorlemmer, 2003; Euzenat, 2004].

En la clasificación de los algoritmos de alineación de ontologías dada en [Shvaico y Euzenat, 2004] se establece una diferencia entre los algoritmos de correspondencia elementales y los combinados. Los métodos elementales se dividen en dos niveles: el nivel de elemento y el nivel de estructura, mientras que los combinados son aquellos que utilizan combinaciones de técnicas de diferentes categorías para obtener mejores resultados. En la Figura 2.2 se muestra un esquema de dicha clasificación. En la práctica es muy difícil encontrar algoritmos de alineación de ontologías que utilicen una técnica elemental concreta, sino que por lo general se utilizan combinaciones de estas de manera secuencial, en paralelo, o combinadas con otras tecnologías de inteligencia artificial.

Figura 2.2. Clasificación de los métodos de alineación de ontologías [Shvaiko y Euzenat, 2004]

2.3.1.1

Técnicas de Nivel de Elemento

Las técnicas de correspondencia de nivel de elemento funcionan analizando las entidades de las ontologías en solitario, ignorando sus relaciones con otras entidades.

Nivel de Estructura Correspondencia de ontologías Nivel de Elemento Sintáctico Externo Interno Relacional Cadenas Lenguaje Recursos lingüísticos Restricciones Reutilización Ontologías de referencia Grafos Taxonomía Repositorio de estructuras

Alineación de Ontologías en la Web Semántica 47

Técnicas basadas en cadenas: son aquellas que se basan fundamentalmente en las similitudes de las cadenas de caracteres utilizando diferentes funciones de distancia entre cadenas. Estos métodos utilizan solamente los nombres de los conceptos para calcular su similitud. Como ejemplos de métodos de alineación de ontologías que utilizan técnicas basadas en cadenas tenemos a Anchor-PROMPT [Noy y Musen, 2001] y el método de Fernández-Breis [Fernández-Breis y Martínez-Béjar, 2002].

Técnicas basadas en lenguaje: son métodos que utilizan técnicas lingüísticas adicionales para calcular las similitudes entre cadenas de caracteres. Algunas de estas técnicas son: la tokenización (dividir las cadenas en componentes léxicos o símbolos, por ejemplo: eliminar signos de puntuación, dígitos), eliminación de stop words (palabras sin significado como artículos, preposiciones, conjunciones), etc. Como ejemplos de métodos que utilizan técnicas basadas en lenguajes tenemos a CUPID [Madhavan et al., 2001], ASMOV [Jean-Mary et al., 2009] y Eff2Match [Watson et al., 2010].

Técnicas basadas en restricciones: son métodos que utilizan las restricciones internas de las entidades para evaluar la similitud. Por ejemplo, la mayoría de estas técnicas parten de la idea de que para que dos conceptos sean correspondientes es necesario que tengan la misma cantidad de atributos y que sus atributos sean del mismo tipo. Entre estos métodos podemos mencionar a COMA [Do y Rahm, 2002], CODI [Noessner et al., 2010] y SOBOM [Xu et al., 2010].

Técnicas basadas en recursos lingüísticos: son métodos que hacen uso de recursos lingüísticos para buscar relaciones entre los términos en el proceso de correspondencia. Ejemplos de estos recursos son los tesauros especializados, y bases de datos léxicas como WordNet, que permite identificar una amplia gama de relaciones lingüísticas (e.g. sinonimia). Los métodos que utilizan WordNet se basan en el cálculo de las distancias entre las palabras dentro del grafo conceptual de WordNet. La desventaja de estos sistemas es que son de uso exclusivo para aplicaciones de dominio general y que emplean terminología en inglés, debido a la carencia de bases de datos en otros idiomas. Entre los métodos que utilizan técnicas basadas en recursos lingüísticos tenemos a CUPID [Madhavan et al., 2001], COMA [Do y Rahm, 2002], ASMOV [Jean-Mary et al., 2009] y Eff2Match [Watson et al., 2010].

Técnicas que reutilizan alineaciones: son métodos que emplean alineaciones obtenidas previamente con ontologías dentro del mismo dominio de aplicación. Estas técnicas son útiles

48 Alineación de Ontologías en la Web Semántica

sobre todo cuando se trata de ontologías muy grandes, puesto que evitan la necesidad de procesarlas en su totalidad si se tienen alineados con anterioridad algunos fragmentos de las mismas. Entre los métodos que utilizan estas técnicas podemos mencionar a COMA [Do y Rahm, 2002] y OLA [Euzenat y Valtchev, 2004].

Técnicas que utilizan ontologías globales o de referencia: son métodos que utilizan conocimiento externo, como ontologías globales, que proponen una terminología de referencia en un contexto semántico compartido. Estas ontologías definen conceptos generales que pueden ser utilizados en diferentes dominios. SUMO [Niles y Pease, 2001] y DOLCE [Gangemi et al., 2003] son ejemplos de esta clase de ontologías diseñadas especialmente con el propósito de la integración. Sin embargo, hasta el momento este tipo de técnica no ha resultado viable debido a la dificultad que implica el mantenimiento de todas las ontologías de manera coherente con una única estructura.

2.3.1.2

Técnicas de Nivel de Estructura

Las técnicas de correspondencia de nivel de estructura funcionan analizando las relaciones estructurales de las entidades en las ontologías.

Técnicas basadas en grafos: son métodos que tratan las ontologías de entrada como grafos etiquetados. En estos sistemas la similitud entre dos nodos se basa en el análisis de sus posiciones dentro del grafo. Se basan fundamentalmente en la idea de que si dos nodos son relativamente similares, entonces es muy probable que sus vecinos dentro del grafo también lo sean. Como ejemplos de aplicaciones de alineación de ontologías que utilizan técnicas basadas en grafos podemos mencionar a Anchor-PROMPT [Noy y Musen, 2001], AgreementMaker [Cruz et al., 2009] y SOBOM [Xu et al., 2010].

Técnicas basadas en la taxonomía: Son también métodos basados en grafos pero que sólo consideran relaciones taxonómicas (generalización-especialización) entre los nodos. Aprovechan el hecho de que los nodos conectados mediante relaciones de especialización tienen ya cierta similitud por definición y entonces existe cierta probabilidad de que los vecinos también sean similares. La mayoría de las aplicaciones que tienen en cuenta la estructura de las ontologías se basan en la taxonomía, y como ejemplos podemos mencionar a ASMOV [Jean-Mary et al., 2009], CODI [Noessner et al., 2010], SOBOM [Xu et al., 2010], Eff2Match [Watson et al., 2010] entre otros.

Alineación de Ontologías en la Web Semántica 49

Repositorio de estructuras: son métodos que utilizan un repositorio para almacenar ontologías y sus fragmentos, junto con su coeficiente de similitud. Es decir, en caso de que se quiera realizar el emparejamiento de nuevas estructuras, primero se verificará si existe un índice de similitud para ellas en el repositorio. El objetivo es identificar si merece la pena realizar el proceso de correspondencia en ciertas estructuras o reutilizar las alineaciones almacenadas con anterioridad [Rahm et al., 2004].