• No results found

Los sistemas basados en Corpus son un tipo de sistemas que desarrollan técnicas que aprenden a tratar o resolver una determinada tarea automáticamente. Estos sistemas suelen estar muy relacionados con métodos estadísticos ya que al igual que ellos se basan en el estudio de los datos.

Los algoritmos más comunes utilizados en este tipo de sistemas, que son aplicados también para el Procesamiento de Lenguaje Natural son:

 Aprendizaje supervisado: El sistema aprende de uno o varios corpus de ejemplo anotados previamente con la etiqueta correcta.

 Aprendizaje no supervisado: Se considera no supervisado cuando no existe tal anotación en los corpus y se utilizan otro tipo de recursos para aprender, como por ejemplo, diccionarios electrónicos, tesauros, etc. En concreto, el Aprendizaje Automático que se usa en la mayoría de los sistemas de tratamiento de información temporal será un aprendizaje supervisado que utiliza corpus anotados manualmente y

supervisados para entrenar al sistema y así aprender automáticamente como resolver las diferentes expresiones temporales que aparecen en los textos.

Una vez decidida la aproximación a utilizar, las tareas que pueden realizarse para tratar los diferentes aspectos de la información temporal son:

 Anotación de las expresiones temporales.

 Ubicación en la línea temporal de los eventos de un texto asociados a una fecha concreta.

 Establecimiento de las relaciones temporales que existen entre los eventos que no tienen una fecha concreta asociada, indicando la relación de orden entre los mismos. II.3.5.3. Esquemas de Anotación Temporal

A continuación, se detallan dos de los esquemas de anotación más destacados y utilizados (TIDES, TIMEML), haciendo especial hincapié en los elementos que cada uno de los esquemas es capaz de anotar así como los atributos asociados a cada uno de estos elementos.

TIDES

En los últimos tiempos se han creado multitud de corpus anotados para entrenar sistemas NLP. Durante este proceso de anotación surgió la necesidad de definir esquemas para hacer que los corpus resultantes fuesen explotables para tal fin. Uno de estos esquemos fue desarrollado por DARPA en una necesidad de anotar expresiones temporales que aparecen en los textos anotados. Este esquema se denomino TIDES (Ferro, et al. 2002) y ha sido aplicado ampliamente en sistemas de Búsqueda de Respuestas, Caracterización de Eventos, Resúmenes, etc. Este esquema de anotación está basado en la ontología temporal definida por KSL (1991) aunque no es capaz de expresar todas las distinciones de la misma (pero si que se puede afirmar que lo definido en el esquema de anotación forma parte de la ontología).

El proceso de anotación de TIDES se divide en los pasos: 1. Marcar las expresiones temporales en un documento.

2. Identificar el valor temporal que la expresión está representando.

Las expresiones temporales se marcan utilizando un conjunto de disparadores léxicos con sentido temporal de tal forma que cualquier expresión que tenga alguno de estos disparadores es una expresión temporal.

Es importante remarcar que el esquema de anotación TIDES únicamente es válido para marcar expresiones temporales y las etiquetas que se utiliza para ello se denominan TIMEX2. Estas etiquetas tienen los siguientes atributos:

 VAL: se usa para representar el valor de una expresión que puede ser una instantánea en el tiempo o una duración.

 PERIODICITY: empleado para expresiones temporales que representan recurrencia regular (por ejemplo, el uso de términos como "siempre", "cada",...)

 MOD: usado como complementar de otros atributos en los casos en los que la expresión contiene algún modificador que puede cambiar su valor final, por ejemplo, la palabra "aproximadamente" antes de una expresión temporal.

 SET: indica si la expresión representa un conjunto de valores porque la expresión indica una repetición en el tiempo. A modo de ejemplo, la expresión "todos los lunes" tendría como valor del atributo SET un Sí.

 GRANULARITY: unidad temporal en la que está representado cada miembro del conjunto.

 NONSPECIFIC: booleano empleado para expresiones difusas y que por tanto no tienen una representación del atributo VAL concreta.

 COMMENT: facilita la inclusión de comentarios en cada etiqueta.

II.3.5.3.1. TIMEML

TimeML nacido en 2002 en la Institución ARDA y consiste en un esquema de anotación para anotar expresiones temporales, eventos y las relaciones temporales entre estos eventos (Radev & Sundheim, 2002).

Tiene bastantes similitudes con TIDES pero mejora éste manteniendo aquellas características que hacían de TIDES un esquema muy potente y añadiendo nuevas características, como la posibilidad de que un evento esté relacionado con más de un objeto indexado, o que un evento implique varias acciones.

Dentro del esquema TimeML existen cuatro grupos principales de etiquetas que a continuación se explican:

 EVENT: aquellas situaciones que ocurren se denominan eventos.

 SIGNAL: para anotar palabras qye denotan relación temporal entre objetos (por ejemplo, “durante”, “en”, etc.).

 LINK: para marcar la relación entre dos objetos, ya sea una relación temporal (TLINK), de subordinación (SLINK) o aspectual (ALINK).

Cada una de estas etiquetas puede tener a su vez diferentes atributos, que se muestran a continuación ordenados en función de tipo de la etiqueta:

Anotación EVENT

 ID: atributo obligatorio que contiene un identificador para cada evento.

 CLASS: los eventos se clasificación en función de la clase, según la siguiente organización:

o PERCEPTION: implican la percepción física de otro evento (asociado comúnmnete a verbos como "mirar" o "escuchar").

o REPORTING: eventos descritos por una persona u organización (muy común con el uso de verbos como "contar" o "explicar").

o ASPECTUAL: indican el inicio de algo, el fin de algo, la culminación de algo o la continuación de algo (se emplean verbos como "empezar", "proseguir",etc.) o LACTION: empleado cuando un evento introduce algún argumento para

describir una acción o situación de la que se puede inferir algo dada la relación que esta acción tiene con el evento LACTION. Un ejemplo sería "Algunas compañías están intentado monopolizar el negocio", donde "están intentando" sería un evento de tipo I_ACTION y "monopolizar" sería el argumento de evento que introduce.

o LSTATE: Similar al anterior pero referido a estados en lugar de eventos (en este caso se emplearían expresiones como "esperar que", "opinar que", etc.)

o STATE: describe estados.

o OCCURRENCE: describe el resto de eventos que pueden ocurrir y que no se han contemplado en ninguno de los grupos anteriores.

 Atributos adicionales: también se pueden incluir información en la anotación mediante este atributo como el tiempo y el aspecto del verbo contenido en el evento.

Está basada en la anotación de TIDES para expresiones temporales pero con algunas diferencias, como son el que no se usen los atributos SET, PERIODICITY, GRANULARITY y NON- SPECIFIC, aunque los tres primeros atributos se recogen enen una etiqueta denominada MAKEINSTANCE. Los atributos de TIMEX3 son:

 ID: atributo obligatorio para identificar la expresión temporal.

 TYPE: atributo obligatorio que indica el tipo de expresión al que se refiere la etiqueta (fecha, hora o duración).

 VAL: se usa para representar el valor de una expresión que puede ser una instantánea en el tiempo o una duración.

 MOD: usado como complementar de otros atributos en los casos en los que la expresión contiene algún modificador que puede cambiar su valor final, por ejemplo, la palabra "aproximadamente" antes de una expresión temporal.

 temporalFunction: atributo booleano que indica que la expresión temporal debe calcularse a través de una función.

 anchorTimelD: atributo opcional que indica el ID de otra expresión temporal con la cual está relacionada temporalmente.

 valuePromFunction: relacionado con el campo temporalFunction, representa el valor devuelto por la función empleada para calcular la expresión temporal.

 functionlnDocument: representa la función TIMEX3 que devuelve la fecha con la que la expresión temporal está relacionada y necesario para su resolución (la fecha de creación del documento, la fecha de modificación del documento,etc.)

Anotación SIGNAL

Denota la relación entre dos entidades temporales, ya sean éstas tiempos o eventos. Esta etiqueta sólo contiene un atributo ID.

Algunas de las señales que se pueden encontrar son:

 Preposiciones temporales como "en", "antes", "después", ...  Conjunciones temporales como "mientras", "cuando", ...  Modificadores temporales como "cada", "todos",...  Expresiones negativas como "nunca",...

 Modales como "podría", "debería",...

 TLINK: marca una relación entre en evento y un tiempo o entre dos eventos. Está relación indica el orden de suceso entre los difentes eventos.

 SLINK: empleada cuando se encuentran verbos modales, negativas,… en el texto, este atributo indica el enlace de subordinación entre relaciones de eventos o eventos y señales.

 ALINK: indica la relación entre un evento de aspecto y algún argumento de dicho evento.

Related documents