Chapter 5 RS CONTROL OPTION 64
5.3 Self Deployment with Phased Array Antennas 70
3.3.1 Herramientas utilizadas en la evaluación. La herramienta empleada para analizar
las etiquetas fue el Collection Processing Engine (CPE) que es una aplicación de UIMA que permite analizar varios documentos al tiempo y visualizar las anotaciones o generar un archivo plano de texto que las contiene (depende de lo que el programador desee efectuar). A diferencia de la herramienta Document Analyser, el CPE permite hacer análisis de varios documentos simultáneamente y constituye en sí un motor de búsqueda de metadatos pero es el usuario del sistema quien decide qué tipo de datos son recolectados y como se pueden visualizar por medio de la programación en JAVA de los archivos que componen el CPE especifico para la aplicación. El CPE está compuesto por varios subsistemas a saber:
- Collection Reader: es una interfaz para acceder a los documentos que serán analizados. Se compone de dos archivos: un respectivo descriptor y un archivo de JAVA llamado FileSystemCollectionReader.
- Analysis Engine (AE): es el componente que contiene los descriptores de los metadatos a analizar. En este caso, se elaboró un descriptor llamado
DescriptorDeEntidades que recoge todos los datos de las entidades de nombres de personas, lugares, fechas y verbos para analizarlos en un documento de manera secuencial (en lenguaje UIMA es un Descriptor Agregado porque recoge en un solo AE varios descriptores). Si sólo se quisiera analizar una determinada entidad se escogería el descriptor de esa entidad.
- CAS Consumer: es el componente que analiza los datos de las entidades de interés de acuerdo a los análisis del AE. Es programable en JAVA de acuerdo a los requerimientos del usuario y también tiene asociado un descriptor. Para el análisis de cobertura y precisión de las entidades se programó un archivo que muestra el listado de entidades por documento.
La siguiente figura muestra un esquema de funcionamiento interno del CPE de UIMA:
Figura 24.
La siguiente figura muestra la interfaz del CPE empleada para el análisis de entidades:
Figura 25.
Interfaz Collection Processing (UIMA, 2009)
Cuando el CPE termina de hacer un análisis de documentos muestra una ventana donde se observa el rendimiento del sistema durante el análisis como se observa en la siguiente figura:
Figura 26.
Ejemplo de resultados del análisis de documentos del CPE.
3.3.2 Metodología para la medición del etiquetamiento del sistema. La manera de medir
el rendimiento en cuanto al etiquetamiento es calcular los porcentajes de cobertura y la precisión tal como se explicó en el capítulo 1. La cobertura se midió tomando el número total de etiquetas sobre las etiquetas evaluadas para la entidad de interés y la precisión se midió tomando el número total de etiquetas de la entidad analizada sobre las etiquetas que son correctas. Para obtener los datos se hace un análisis de los documentos que conforman el corpus mediante el CP y éste produce un archivo de texto que contiene los datos de las entidades por documento. Este archivo luego es procesado para identificar si la palabra marcada pertenece o no a la categoría analizada (desambiguación) y luego se calcula el total de aciertos / desaciertos para obtener la cobertura y la precisión. Estas mediciones se hicieron manualmente porque son metadatos semánticos y el ser humano es quien debe decidir si una anotación pertenece a una categoría o no.
3.3.3 Análisis de resultados para el etiquetamiento. Para la evaluación del sistema se analizaron dos corpus:
- El corpus histórico compuesto por 26 documentos que contienen 221 cartas históricas de los sacerdotes y obispos, con un tamaño de 724KB.
- Un documento tomado aleatoriamente del corpus utilizado para el TREC (LDC, 2000) que sirve de corpus de contraste, el cual contiene 297 noticias de periódicos pertenecientes a mayo de 1994 y que tiene un tamaño de 576KB. Aunque solo se tomó un documento de los que conforman este corpus de noticias, el CPE puede etiquetar cantidades más grandes de texto sin problema, por ejemplo, se hizo una prueba de etiquetamiento para 10MB de noticias de AFP en donde se generó un archivo de etiquetas de un tamaño de 5MB.
Rendimiento del sistema de durante el análisis. A continuación se muestran las tablas de
datos resultantes del análisis utilizando el CPE para los corpus histórico y de contraste (son los datos que el sistema muestra de acuerdo a la figura 25) y que muestran el rendimiento del sistema durante el análisis para cada uno:
Datos de rendimiento del CPE para el corpus histórico
Tipo de corpus Corpus histórico
Numero de archivos que conforman el corpus 26 archivos
Numero de documentos 221
Tiempo total de análisis de etiquetas 78.544 segundos Porcentaje de tiempo de análisis para Collection Reader 0.26% (202 ms) Porcentaje de tiempo de análisis del DescriptorDeEntidades 99,02% (77771 ms) Porcentaje de tiempo de análisis en el proceso del Cas Customer 0.73% (570 ms)
TOTAL PORCENTAJE DE TIEMPO DE ANALISIS DEL SISTEMA 100%
Porcentaje de tiempo de análisis para etiquetas de fechas 12,75% (10015 ms) Porcentaje de tiempo de análisis para etiquetas de documentos 0,03%(24 ms) Porcentaje de tiempo de análisis para etiquetas de lugares 3,75% (2944 ms) Porcentaje de tiempo de análisis para etiquetas de nombres de personas 74,33% (58378 ms) Porcentaje de tiempo de análisis para etiquetas de verbos 8.14% (6393ms)
TOTAL PORCENTAJE DE TIEMPO DE ANALISIS PARA ETIQUETAS