Magnification - The Application of Divergences in Prototype Based Vector Quantization

De acuerdo a la norma ISO 5963 la indización es el proceso de describir o representar el contenido temático de un recurso de información. Este proceso da como resultado un índice, que no es más que una lista de términos de indización sobre un tema específico que será utilizado como herramienta de búsqueda y acceso al contenido de recursos en sistemas de recuperación de información. La indización es un requisito necesario para un adecuado almacenamiento y recuperación de la información.

Su importancia radica esencialmente en la necesidad de habilitar un sistema de búsqueda y recuperación de la literatura científica existente en los fondos documentarios de las entidades

informativas. El producto final de este proceso es generalmente un índice bibliográfico, una base de datos automatizada o simplemente un catálogo alfabético de materias manual, indispensables para asegurar el acceso y consulta de la información a los usuarios.

La distinción entre tipos de indización se suele realizar en función de cómo se realiza el proceso, dando pie a dos grandes categorías: indización humana e indización automática.

La indización humana es un proceso intelectual, donde es una persona (tradicionalmente un indizador profesional) quien, tras analizar el contenido del documento o parte del documento, le asigna aquellos términos de indización que considera identifican las temáticas principales de su contenido. La indización humana únicamente puede aplicarse sobre colecciones dinámicas y de gran volumen a través de la distribución de la tarea de indizar entre el máximo número de individuos posibles.

La indización automática, por el contrario, es realizada por algoritmos que mediante diversas técnicas o métodos determinan cuál es el peso con el que cada uno de los términos que aparecen en el documento representa su contenido temático. La indización automática parte de la idea básica de que, en el contexto de grandes volúmenes de información, puede descubrirse cuáles son los documentos que tratan sobre un determinado tema utilizando como pistas las propias palabras (todas) que contienen los documentos, esta tecnología es conocida por el nombre de full-text o indización de texto completo.

La indización humana y la automática ofrecen resultados diferentes, aunque igualmente válido (Pérez-Carballo y D. Anderson, 2001). Sin embargo, la automática posee una destacable ventaja frente a la humana: su menor coste. Por esta razón resulta la única opción plausible en colecciones de gigantesco volumen y constante crecimiento (como es la propia Web).

¿Qué hay detrás de esta visión de la indexación?

El sistema lee cualquier nuevo texto que se añade al fondo: En una biblioteca este proceso supone escanear y pasar un reconocimiento óptimo de caracteres al documento; en un buscador de Internet se realizan procesos de búsqueda de nuevas páginas mediante robots automáticos.

Se indexa el documento: No se pueden guardar los textos íntegros: no hay espacio suficiente y a la hora de realizar las búsquedas estas serían eternas. ¿La solución? Al

introducir un nuevo texto en el sistema se procesa éste y se extrae de él el vector documento. El vector documento contiene una lista de pares (término de indexación, peso) asociados al mismo. Los términos de indexación son palabras simples, frases o entradas de un tesauro que representan conceptos presentes en el documento. El peso es la relevancia con la que aparece el término de indexación en el texto.

El usuarios del sistema realiza una consulta: el Quero: La consulta puede tener varias formas: un término simple ("sexo"), un elemento de un vocabulario restringido ("arquitectura española"), una frase en lenguaje natural o una gramática basada en estructuras lógicas ("filosofía Y (Córdoba O Al-Andaluz)").

El sistema procesa el query y devuelve una lista de documentos: Una visión general de este proceso sería generar un vector query que representa la consulta realizada y este vector se compara con todos los vectores documentos almacenados en el sistema. El sistema va suministrando documentos al usuario mientras éste lo solicita ordenados los documentos en función de su proximidad al query realizado.

En el mejor de los casos el sistema valora cada documento devuelto en función del nivel de ajuste a la petición realizada por el usuario.

El usuario valora los resultados obtenidos: Este feedback permite ajustar futuras consultas similares. Por desgracia pocos sistemas están preparados para este último proceso.

Para el desarrollo del sistema se utilizó la indización automática por unitérminos o indización libre. En la indización por unitérminos la identificación se realiza a través de una lista o conjunto abierto de términos, indización que se realiza a partir de palabras, mediante esta se expresa con mucha facilidad los conceptos y los temas combinando las mismas palabras. Esta indización es libre, o derivada del texto, en ella se extraen los términos tal y como figuren en los documentos y mediante cálculo frecuencial se contabilizan sus repeticiones dentro del mismo, asignándole así un peso a cada término. En acápite analizado anteriormente se expuso que para el desarrollo de la aplicación se usaría el Modelo Espacio Vectorial, considero que es grato destacar que en este modelo de recuperación de información la descripción de los documentos se realiza en función de los términos que aparecen en su cuerpo textual, constituyendo este el principal principio de la indización automática por unitérminos o indización libre, elegida en este acápite.

In document The Application of Divergences in Prototype Based Vector Quantization (Page 75-79)