Según Baeza-Yates y Ribeiro-Neto (1999), en el contexto de un sistema de RI es necesario distinguir los conceptos de recuperación de información y recuperación de datos, para evitar ambigüedades. La recuperación de datos, consiste principalmente en determinar los documentos de una colección que contienen las palabras claves de la consulta del usuario (comparar cadenas). Un lenguaje de recuperación de datos pone la mira en recuperar que todo los objetos que satisfacen claramente definido las condiciones como en una expresión normal o en una expresión de álgebra relacional frente a una base de datos relacional con datos estructurados. La recuperación de información, consiste en obtener documentos relevantes ante la necesidad de obtener cierta información expresada en una consulta, donde la respuesta a esta consulta son documentos que tienen relación con la consulta del usuario, la relación es determinada por un modelo de RI.
Según Blair (1990) las diferencias entre "recuperación de datos (RD)” y "recuperación de información (RI)”, se utiliza los siguientes criterios:
1) Según la forma de responder a la pregunta: en RD se utilizan preguntas altamente formalizadas, cuya respuesta es directamente la información deseada. En RI las preguntas resultan difíciles de trasladar a un lenguaje normalizado, y la respuesta es un conjunto de documentos que contienen, sólo probablemente, lo deseado, con un evidente factor de indeterminación.
2) Según la relación entre el requerimiento al sistema y la satisfacción de usuario: en RD la relación es determinística entre la pregunta y la satisfacción. En RI es probabilística, a causa del nivel de incertidumbre presente en la respuesta.
3) Según el criterio de éxito: en RD el criterio a emplear es la corrección y la exactitud, mientras que en RI el único criterio de valor es la satisfacción del usuario, basada en un criterio personal de utilidad.
4) Según la rapidez de respuesta: en RD depende del soporte físico y de la perfección del algoritmo de búsqueda y de los índices. En RI depende de las decisiones y acciones del usuario durante el proceso de interrogación.
Los factores que afectan la efectividad de un sistema de RI, según Baeza-Yates y Ribeiro-Neto (1999) son: la tarea del usuario y la vista lógica de los documentos.
a) La tarea del usuario, se refiere a la actividad que el usuario debe realizar para obtener la
información que requiere. Se relaciona ampliamente con la traducción de las necesidades del usuario en un lenguaje que sea comprendido por el sistema, permitiéndole recomendar o recuperar los documentos que contengan dicha información. La tarea del usuario es de dos tipos: recuperación y navegación, ambas son importantes para la decisión de los modelos a utilizar. Cuando se habla de recuperación se refiere a buscar documentos dentro de una colección partiendo de una consulta (petición) o simplemente de un perfil dado. Sin embargo, la navegación se refiere al recorrido analítico de los documentos hasta llegar a la información que el usuario necesita. Dicha tarea es fácil realizarla mediante los enlaces de hipertexto ya que éstos permiten enlazar directamente dichos documentos presentando la información en formato digital.
b) La vista lógica de los documentos, se refiere a la manera de representar un documento dentro de
sus índices. La forma más sencilla de representar un documento es por medio del conjunto de palabras del texto completo, sin embargo llega a ser muy grande y por ello es conveniente reducirlo a una lista con las palabras clave del texto. Así las vistas lógicas varían de acuerdo a los diferentes tipos de operaciones que se apliquen al texto, entre las cuales Strzalkowski (1997) y Baeza-Yates y Ribeiro-Neto (1999) destacan:
o La eliminación de palabras vacías, consiste en quitar de la lista de palabras que no dan una información de importancia sobre el contenido del documento, como son artículos y conexiones.
o La lematización morfológica, que consiste en la reducción de las palabras a su raíz, así una palabra que está en plural se reduce a singular y un verbo conjugado se reduce a su infinitivo. o Agrupar las palabras representativas por sinónimos.
o La extracción manual de términos representantes.
o Representación de frases, esto hace, por ejemplo, que las frases: "recuperación de información", "recuperando información" o "recuperar información relevante", tengan la misma representación dentro del índice y sea: "recuperar + información".
La aplicación de una o varias de éstas operaciones muestra diferentes vistas lógicas que representan las colecciones de documentos que varían desde una vista completa del texto a los descriptores generales de los documentos, permitiendo un rápido acceso a la información y logrando la representación del contenido del documento (Maldonado, 2002).
La recuperación de información se realiza de dos maneras diferentes, donde se utilizan los mismos modelos de recuperación de información para lograr un buen resultado, estos dos modos operacionales son: la recuperación ad hoc y el filtrado de documentos. En el proceso de la recuperación de información ad hoc, la colección de documentos permanece estática mientras el sistema recibe diferentes peticiones de búsqueda, y así se buscan aquellos que parecen ser relevantes dentro de dichas colecciones y al final se realiza una jerarquización de acuerdo al grado de relevancia. Por el contrario, en el proceso de filtrado de documentos dentro de la recuperación de información las peticiones permanecen estáticas y es la colección de documentos la que está en constante cambio, es decir se van agregando y eliminando documentos de la colección constantemente. Dentro de éste último proceso, es necesario tener almacenadas las características y gustos del usuario, para que se comparen con los documentos y así se tome la decisión de qué le será relevante (Grossman y Frieder, 1998) (Baeza-Yates y Ribeiro-Neto, 1999).
En el presente trabajo de investigación se enfoca en el modo operacional ad hoc ya que la colección que elegirá el usuario, permanece estática y recibe consultas que cambian constantemente y se evalúan frente a los documentos de dicha colección.