• No results found

Testing Conditions

In document SVFT-M Maximum Security Camera Dome (Page 49-57)

Arquitectura del sistema de DSA. Describimos a continuación el método tal como lo hemos desarrollado en el apartado precedente. La diversificación de la información asociada a la ocurrencia ambigua en base de sus patrones y también la diversificación de los algoritmos determina varias heurísticas de DSA. Una heurística es resultado de la combinación entre un conjunto de información asociado a la ocurrencia por desambiguar y un algoritmo de DSA que se aplica sobre este conjunto.

De acuerdo con nuestro objetivo de obtener una alta fiabilidad en la asignación de los sentidos, utilizaremos las diferentes heurísticas que se configuran. El uso de diferentes heurísticas en el proceso de DSA impone un cuarto paso en el método, con el objetivo de combinar las heurísticas individuales.

Nuestro método tendrá, por lo tanto, los siguientes pasos:

Paso 1º. Identificación de los patrones léxico-sintácticos de la ocurrencia ambigua.

Paso 2º. Obtención de información asociada a la ocurrencia ambigua a partir de los patrones y de la oración.

Paso 3º. Aplicación de los algoritmos de DSA sobre los conjuntos obtenidos en el paso 2º. (Lo que equivale a la implementación de las heurísticas individuales.)

Paso 4º. Combinación de las heurísticas individuales.

Presentamos en la figura 6.4. la arquitectura del sistema de DSA construido en base a este método, con un módulo para cada uno de los pasos del método. En la arquitectura hemos representado también la fuente de información que accede cada módulo. Subrayamos que este sistema corresponde a la adopción de las dos restricciones R1 y R2. Sin embargo, hemos implementado también los sistemas alternativos, sólo para la restricción R1 y sin ninguna de las dos restricciones. Estos últimos dos sistemas de DSA se presentarán y evaluarán separadamente en los experimentos del apartado 7.2.

Figura 6.4. Arquitectura del sistema de DSA

Heurísticas. Detallamos a continuación las heurísticas individuales que hemos usado y su combinación. Así, las heurísticas que hemos obtenido aplicando las reducciones R1 y R2 (apartado 6.7.2) son las combinaciones entre uno de los algoritmos ME y PC (una de sus variantes) y uno de los conjuntos PAT, PARk (en una de las variantes PAR1k – PAR4k), SINTk y OR:

- ME_PAT k: se aplica la Marca de Especificidad sobre el par de nombres del patrón

- PC_PATk: se aplica la Prueba de Conmutabilidad (en una de sus variantes) sobre el otro nombre del patrón

- ME_PARk: se aplica la Marca de Especificidad sobre el conjunto de información paradigmática asociada a la ocurrencia ambigua dentro del patrón (en una de las variantes PAR1k, PAR2k, PAR3k, PAR4k)

- ME_PARk: se aplica la Marca de Especificidad sobre el conjunto información sintagmática asociada a la ocurrencia ambigua dentro del patrón

- PC_SINTk: se aplica la Prueba de Conmutabilidad (en una de sus variantes) sobre el conjunto de información sintagmática asociada a la ocurrencia ambigua dentro del patrón. - PC_SINTk: se aplica la Prueba de Conmutabilidad (en una de sus variantes) sobre el

conjunto de información sintagmática asociada a la ocurrencia ambigua dentro del patrón; - ME_OR: se aplica la Marca de Especificidad sobre el conjunto de palabras (nombres) de la

oración;

- PC_OR: se aplica la Prueba de Conmutabilidad (en una de sus variantes) sobre el conjunto de palabras (nombres) de la oración.

PREPROCESAMIENTO: Etiquetación morfológica ENTRADA: texto

MACO + RELAX

PASO 1º: Identificación patrones léxico-sintácticos (Pk)

-Patrones básicos -Esquemas de búsqueda -Reglas de descomposición

PASO 2º: Obtención de información asociada (conjuntos A1k, A2k, A3k, A4)

PASO 3º: Aplicación de los algoritmos de DSA (heurísticas individuales)

PASO 4º: Combinación de respuestas individuales

SALIDA: sentido final Corpus de búsqueda (etiquetado morfológicamente) Marca de Especificidad Prueba de Conmutabilidad EuroWordNet Discriminadores de Sentido

La aplicación de estas heurísticas sigue el funcionamiento de los dos algoritmos, ME y PC, previamente descritos.

Mostramos un resumen de las heurísticas en la tabla 6.6., según los dos factores que se utilizan en una heurística: el algoritmo y el conjunto de palabras sobre que se aplica el algoritmo.

El patrón Información paradigmática Información sintagmática Oración Información (conjunto) Algoritmo

PAT k PARk SINTk OR

ME ME_PAT k ME_PARk ME_SINTk ME_OR

PC PC_PAT k PC_PARk PC_SINTk PC_OR

Tabla 6.6. Heurísticas de DSA utilizadas

Combinación de las heurísticas. La combinación de las heurísticas usadas debe ser conforme con nuestro enfoque a la DSA: la desambiguación de la ocurrencia ambigua se hace en primer lugar en relación con sus patrones léxico-sintácticos. Las hipótesis sobre la que se fundamenta el método, recordamos, son la dependencia del sentido de una palabra en el contexto principalmente de sus relaciones sintácticas y la “tendencia hacia un único sentido por patrón léxico-sintáctico” (“towards one sense per lexico-syntactic pattern”), respectivamente. Por consiguiente, organizamos las heurísticas en dos categorías: heurísticas relacionadas con los patrones (y eventualmente en cierta medida también con la oración) y heurísticas relacionadas con la oración (tabla 6.7).

Grupo Heurísticas

ME_PATk

PC_PATk

ME_PARk

PC_PARk

I: Heurísticas relacionadas con los patrones

ME_SINTk

PC_SINTk

II: Heurísticas relacionadas con la oración ME_OR PC_OR Tabla 6.7. Tipología de las heurísticas de DSA utilizadas

A partir de esta organización de las heurísticas, consideramos oportuna una modalidad progresiva de combinar las heurísticas dentro del sistema de DSA (ver figura 6.5.):

a) por una parte, se combinan las heurísticas del grupo I. Para ello, se implementan todas las heurísticas para cada uno de los patrones y luego se combinan sus resultados para obtener una propuesta de sentido por parte de cada patrón; al final se juntan las propuestas de sentido de todos los patrones;

b) por otra parte, se combinan las heurísticas del grupo II, es decir, las dos heurísticas relacionadas con la oración. Para ello, se implementan ambas heurísticas y luego se combinan sus resultados para obtener una propuesta de sentido a partir de la oración;

c) finalmente, se combinan las heurísticas del grupo I con heurísticas del grupo II. Para ello, se combinan las propuestas de sentidos obtenidas en base al patrón con las propuestas de sentidos obtenidas en base a la oración. A partir de esta combinación, se decide el sentido final.

Figura 6.5. Combinación de las heurísticas

La modalidad efectiva de proceder a cada combinación se ha establecido en la experimentación (capítulo 7).

Ilustramos la aplicación del método propuesto (en una variante particular) sobre la ocurrencia número 75 del nombre órgano en el corpus de prueba de Senseval-2:

Un informe del <head>órgano</head> de gobierno de los jueces advierte de que no pretende una modificación legislativa, sino proponer soluciones a problemas del nuevo Código, pues, señala, "provoca la comisión de delitos, tiene penas desproporcionadas y ha generado una situación penitenciaria que alcanzará cotas insostenibles".

PASO 1.Identificación de los patrones léxico-sintácticos de la ocurrencia ambigua

En este paso y en el siguiente, particularizamos para órgano los patrones básicos predefinidos y los esquemas de búsqueda.

1a. Utilizando estos esquemas particulares, hallamos en el ejemplo la secuencia: [informe-N de-PREP órgano-N de-PREP gobierno-N].

1b. De esta secuencia, extraemos dos patrones básicos: P1=[informe-N de-PREP órgano-N]

y

P2=[órgano-N de-PREP gobierno-N].

PASO 2. Extracción de información asociada a la ocurrencia ambigua Este paso se divide en los siguientes:

2a. Extracción de información paradigmática a partir del corpus

Para extraer el paradigma correspondiente a la posición de órgano en cada uno de los dos patrones léxico-sintácticos previamente identificados, P1 y P2 respectivamente, procedemos de la manera que se

describe a continuación. Con la ayuda de los esquemas de búsqueda particularizados, buscamos en el corpus posibles nombres en la posición de X en cualquier realización de cada uno de los dos patrones. Obtenemos dos conjuntos, correspondientes a P1 y P2. Si optamos, como variante de la información

paradigmática, guardar sólo los 20 sustitutos más frecuentes dentro del patrón, obtenemos los siguientes dos conjuntos:

PAR1: {gestión, comisión, policía, prensa, servicio, organización, experto, coyuntura, organismo,

ponencia, autoridad, auditoría, agencia, perito, intervención, observador, conclusión, situación, fiscalización, grupo, emisora, candidatura, ...}

Heurísticas I (patrones) Heurísticas II (oración) … Heurísticas patrón Pk … Heurísticas I + II (patrones + oración)

PAR2: {jefe, programa, año, órgano, formación, equipo, partido, coalición, representante, acción,

miembro, cambio, comité, parte, alianza, período, pacto, funcionario, crisis, responsabilidad, mes, alternativa, acuerdo, ...}

2b. Extracción de información sintagmática a partir del corpus

Buscamos en el corpus las oraciones que contienen el patrón P1 y, separadamente, las oraciones que

contienen el patrón P2. De las oraciones halladas en cada caso, extraemos sólo los nombres. Si, como

variante de la información sintagmática, establecimos 10 como umbral mínimo de frecuencia de coocurrencia con el patrón de partida, obtenemos los siguientes dos conjuntos correspondientes a los patrones P1 y P2:

SINT1 = {tráfico, sugerencia, producto, observación, mención, medida, justicia, estupefaciente, estilo,

desvío, consumo, Junta, anteproyecto, Departamento_de_Justicia, ...}

SINT2 = {juez, magistrado, presidente, CGPJ, EFE, fuente, acuerdo, miembro, reunión, poder,

comisión, ciudad, Senado, representante, vicepresidente, texto, función, forma,...} 2c. Extracción de información sintagmática de la oración

Los nombres de la oración son los siguientes:

OR = {órgano, informe, gobierno, juez, modificación, solución, código, comisión, delito, penas, situación, cota}

PASO 3. Aplicación de los algoritmos de DSA sobre la información asociada a la ocurrencia ambigua La aplicación de las heurísticas individuales nos lleva a las propuestas de sentidos que enumeramos a continuación, para el patrón P1, para el patrón P2 y para la oración respectivamente

222 . Para el patrón P1: ME_PAR1: s4, s5 ME_SINT1: - PC_PAR1: s1 (2), s2 (8), s3 (5), s4 (2), s5 (7) PC_SINT1: s1 (0), s2 (3), s3 (3), s4 (0), s5 (3) Para el patrón P2: ME_PAR2: s2 ME_SINT2: - PC_PAR2: s1 (0), s2 (9), s3 (3), s4 (5), s5 (5) PC_SINT2: - Para la oración: ME_OR: s1, s2 PC_OR: s1 (0), s2 (1), s3 (0), s4 (0), s5 (0)

Cuando hay más propuestas de sentido, en el caso de las heurísticas con Prueba de Conmutabilidad, se elige el sentido con más discriminadores de sentido.

En la tabla 6.8., sintetizamos las propuestas de sentido para órgano de parte de todas las heurísticas usadas: P1 P2 Oración ME_PAR 1 ME_SINT 1 PC_PAR 1 PC_SINT 1 ME_PAR 2 ME_SINT 2 PC_PAR 2 PC_SINT 2 ME_OR PC_OR S4 s5 - s2 s2 s2 - s2 - s1 s2 s2

PASO 4. La asignación final de sentido

Ejemplificamos la modalidad de combinar las propuestas de sentido por parte de las heurísticas individuales tomando una decisión sobre el sentido final en cuanto a las opciones particulares relacionadas con:

1) la combinación de las propuestas por parte de las heurísticas asociadas a un patrón (grupo I), 2) la combinación de las propuestas por parte de las heurísticas asociadas a la oración (grupo II) y 3) la combinación de las propuestas por parte de las heurísticas asociadas a los patrones y a la oración (grupos I y II).

Así, para cada patrón, elegimos el sentido más votado. Hacemos la intersección de las diferentes propuestas del sentido de los diferentes patrones. En cuanto a las heurísticas relacionadas a una oración, si hay respuestas de ambas heurísticas, hacemos la intersección con los sentidos propuestos. Si la intersección es nula, elegimos la respuesta de la heurística PC_PC o, si ésta no tiene resultados, de la heurística ME_OR. Para la asignación del sentido final, aplicamos primero las heurísticas del grupo I y luego las del grupo II. Si no hay propuesta de parte de las heurísticas del grupo I, cogemos las respuestas del grupo II. En caso de paridad entre dos o más sentidos, elegimos la propuesta de la heurística más precisa (de las seis) entre las que tienen respuesta.

En este caso, obtenemos el sentido 2 de EWN de parte de ambos patrones y de parte de la oración, por lo tanto se asigna este sentido a la ocurrencia de órgano, sentido que corresponde al sentido 3 de referencia en Senseval-3.

In document SVFT-M Maximum Security Camera Dome (Page 49-57)

Related documents