• No results found

Subchapter M as a Partial Pass-Through Regime

Una de las definiciones más tradicionales de los Sistemas de Recuperación de Infor- mación -IRS por sus siglas en inglés- fue propuesta por Salton and McGill (1983). Para

estos autores un IRS es un sistema de información que almacena los elementos de infor- mación que necesitan ser procesados, buscados, recuperados, y difundidos a diferentes poblaciones de usuarios.

Inicialmente, la investigación y atención de la comunidad se centró en la recuperación desde grandes repositorios de información textual, por tanto, un elemento de información consistía en un documento de texto. Actualmente, los IRS son aptos para recuperar todo tipo de contenido Web.

Para Robertson (1981) citado en (Belkin and Croft 1992), un sistema de recuperación de información tiene la función de dirigir al usuario a los documentos que mejor le permitan satisfacer su necesidad de información.

Aunque existen diferentes definiciones y connotaciones de los sistemas de recupera- ción de información, en definitiva, se refiere a los casos en los que un sistema proporciona al usuario la información que necesita.

Un término asociado a los IRS es la Recuperación de Información -IR por sus siglas en inglés-. Según Meadow (1992), se trata de un proceso selectivo mediante el cual la información requerida es extraída desde un repositorio de información o base de datos. En esta definición de Meadow se destaca la naturaleza selectiva inherente al proceso de recuperación.

Baeza-Yates and Ribeiro-Neto (1999) aportan nuevas dimensiones a la definición de Recuperación de Información, pues afirman que trata con la representación, el almace- namiento, la organización y el acceso a elementos de información. La representación y la organización de los documentos deberían proporcionar al usuario un fácil acceso a la información en la cual está interesado .

En un IRS es clave la participación de las personas quienes proporcionan sus nece- sidades de información mediante un mecanismo que luego el sistema intentará entender con el objetivo de encontrar los recursos que satisfagan esos requerimientos. En el ám- bito de la búsqueda Web, el sistema debe primero traducir la necesidad de información del usuario a una consulta que pueda ser procesada por el motor de búsqueda.

Las motivaciones e intenciones de búsqueda que puede tener un usuario cuando plantea sus necesidades de información pueden referirse a requerimientos de información específica, o a consultas con un fin informacional. Belkin et al. (1982) se refieren a estas situaciones como un estado de conocimiento anómalo -en inglés, Anomalous States of Knowledge-.

El problema central de la recuperación de información es planteado por Baeza- Yates and Ribeiro-Neto (1999) «dada una necesidad de información [..] y un conjunto de documentos, ordenar los documentos de más a menos relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevancia.» Por tanto, para abor- dar este problema se requiere, elegir un modelo que permita calcular la relevancia de un documento frente a una consulta y diseñar algoritmos y estructuras de datos que implementen este modelo de forma eficiente.

La Figura 2.2 muestra el proceso llevado a cabo por un IRS. Como se observa, existen 3 instancias (Hiemstra 2009): i) la representación del contenido de los documentos, ii) la representación de la necesidad de información del usuario y iii) la comparación entre las dos representaciones. El proceso de recuperación inicia cuando el usuario introduce una consulta en el sistema.

Figura 2.2: Proceso de recuperación de información

La representación interna de los documentos debe facilitar y agilizar la localización de la información. Un componente del sistema llamado indexador es el encargado de esta tarea, si un documento no ha sido indexado no estará disponible para ser devuelto como

resultado de una búsqueda. Se puede indexar el contenido del documento, así como sus metadatos: título, idioma, autor, propietario, localización, palabras clave, entre otros.

Una vez que se han creado las representaciones de los documentos, generalmente a través de un proceso offline, el usuario puede enviar sus peticiones de búsqueda. A partir de este momento, las necesidades de información del usuario son traducidas a una consulta formal, es decir, a una representación que entienda el sistema.

La búsqueda propiamente dicha ocurre cuando se comparan las representaciones del documento y la consulta del usuario. A través de una estrategia de recuperación se seleccionan los recursos que respondan la necesidad de información planteada.

Un componente adicional que se distingue en la Figura 2.2 es el de feedback, el cual permite al usuario proporcionar acciones que mejoren los resultados de la búsqueda.

Las implementaciones de un IRS a nivel de la Web sigue un proceso similar al indicado en la Figura 2.2, sin embargo, se añade un componente para la captura de datos desde la Web denominado robot, spider o crawler.

A nivel de la Web, Chang et al. (2001) identifican tres tipos de IRS: los índices temáticos o directorios, los motores de búsqueda y los meta-buscadores. La característica que los diferencia, es la forma de conseguir la información para generar la base de datos sobre la que posteriormente se realizarán las búsquedas. Mientras que los directorios son alimentados de forma manual por personas (generalmente llenando un cuestionario). En el caso de los motores de búsqueda, el descubrimiento de los recursos es realizado de forma automática mediante un robot. Finalmente, los meta-buscadores combinan los resultados provenientes de diferentes buscadores.

En este trabajo, se ha concentrado la investigación en los motores de búsqueda. Este tipo de herramienta es la aplicación más visible de los sistemas de recuperación de información en Internet.

La Figura 2.3 muestra los componentes de un motor de búsqueda: i) una interfaz de consulta mediante la cual el usuario proporciona sus requerimientos y una interfaz de respuesta le permite visualizar los resultados; ii) cuando el sistema recibe una petición se encargará de construir una representación adecuada; iii) el crawler, explora de forma periódica la Web para encontrar nuevos recursos de información, para conseguirlo realiza peticiones a los servidores Web, visita y analiza la página principal y todas las páginas enlazadas; iv) el indexador es el encargado de obtener la representación interna de cada recurso encontrado por el crawler; finalmente, iv) el motor de búsqueda utilizará

una estrategia de recuperación de información para buscar en el índice las páginas relacionadas a la búsqueda y entregará los resultados de búsqueda ordenándolos según una relevancia estimada.

Figura 2.3:Arquitectura de un Sistema de Recuperación de Información para la Web

Con arquitecturas como la expuesta en la Figura 2.3, la gente puede encontrar la información que necesita, aunque debido a la gran cantidad de información y resultados, el usuario necesita saber cual es la información correcta o la que más se asemeje a lo que busca. Entonces, surge la necesidad de un mecanismo para calificar o valorar las páginas y ordenarlas de acuerdo a su relevancia o pertinencia. El mecanismo que permite ordenar los resultados proporcionados por el motor de búsqueda se denominaranking.

En (Amatriain 2013) se explica que para que el ranking cumpla su objetivo se debe encontrar la mejor ordenación posible de un conjunto de objetos para un usuario dentro de un contexto específico en tiempo real. Esto implica el diseño de funciones de calificación, ordenamiento y filtrado de resultados.

El ranking es el mecanismo de filtrar resultados apropiados tanto como sea posible, es decir, el objetivo de una estrategia de ranking es ordenar los recursos de acuerdo a su relación con la necesidad o intención de búsqueda del usuario. En general, el resultado de una consulta realizada en un motor de búsqueda se clasifica por el grado de similitud entre las palabras clave y las representaciones de los documentos (Wang et al. 2007).

por Brin and Page (1998). PageRank es una marca registrada y patentada por Google desde 1999 y se basa en el uso de la conectividad entre páginas para calcular el grado de calidad de cada página. Este algoritmo se basa en la idea de que el número de enlaces que una página proporciona tiene mucho que ver con la calidad de la misma. Otro indicador en el que se basa PageRank es que aquellas páginas muy citadas son páginas que vale la pena consultar y, en cambio, aquellas que sólo posean un enlace son páginas de poco interés para su consulta.

2.3.1.2. Planteamiento y representación de las necesidades de información