Esta sección presenta las conclusiones de este trabajo. En primer lugar el apartado V.2.1 repasa las principales contribuciones de esta tesis doctoral. El apartado V.2.2 establece y justifica una lista de conclusiones.
V.2.1. RESUMEN DE LAS PRINCIPALES CONTRIBUCIONES
En función de la discusión con respecto al estado del arte realizada en el apartado anterior, concluimos que este trabajo presenta las siguientes aportaciones principales (que fueron ya adelantadas en la sección I.3):
1) Una arquitectura para aplicaciones de recopilación dirigida de información, que contempla el acceso a la Web Oculta. La arquitectura se basa en las arquitecturas existentes de crawling dirigido y las complementa y adapta para reflejar los componentes necesarios para el acceso a la Web Oculta.
2) Un conjunto de técnicas y algoritmos para realizar crawling de la ‘Web Oculta de lado cliente’. Las técnicas de crawling propuestas identifican los recursos descargados mediante el concepto de ‘ruta’, que es una abstracción que extiende el concepto de URL para soportar mecanismos de mantenimiento de sesión. El proceso de crawling se basa en la utilización de componentes denominados ‘mini- navegadores’, que son capaces de tratar con lenguajes de script (e.g. JavaScript). Además, se tienen en cuenta las variaciones en la página que pueden producirse dinámicamente en respuesta a las interacciones del usuario (e.g. nuevos enlaces que aparecen en la página al desplegar un menú emergente).
3) Un conjunto de técnicas y algoritmos para identificar y aprender a consultar automáticamente formularios de consulta web relevantes para la tarea especificada. El proceso de crawling dirigido admitirá como parte de su entrada un conjunto de especificaciones de dominio de aplicación. Cada especificación de dominio incluye cierta información que ayuda a identificar formularios de consulta relevantes para la tarea objetivo, así como un conjunto de consultas que se desearía ejecutar sobre tales formularios. Cuando el proceso de crawling encuentra durante su exploración un formulario de consulta web, utiliza diversas heurísticas basadas en técnicas de distancia visual y similitud textual para determinar si el formulario es relevante para alguno de los dominios de aplicación y, en ese caso, para aprender automáticamente a ejecutar consultas sobre el mismo, y obtener las respuestas a las consultas especificadas.
4) Nuevas técnicas y algoritmos para extraer automáticamente los datos estructurados contenidos en las respuestas obtenidas a consultas efectuadas utilizando formularios web de consulta sobre bases de datos subyacentes. Cuando el sistema de crawling descubre un nuevo formulario relevante y ejecuta un conjunto de consultas sobre el mismo, las páginas de respuesta son proporcionadas como entrada a un módulo de
estructuración automática. Este módulo utiliza técnicas originales para obtener de cada página HTML de respuesta los registros estructurados contenidos en ella. 5) Un conjunto de herramientas software que permiten la creación sencilla de
aplicaciones de crawling dirigido. Estas herramientas han sido utilizadas para la validación experimental de las técnicas propuestas, así como en diversas tareas de obtención de datos reales.
V.2.2. CONCLUSIONES OBTENIDAS
En este apartado se enumeran y justifican las principales conclusiones de este trabajo. CONCLUSIÓN 1: Es posible diseñar soluciones de crawling dirigido para extracción de información de forma automatizada de la Web Oculta.
La arquitectura presentada en esta tesis doctoral considera todas las tareas necesarias para realizar la extracción de información dirigida de la Web Oculta. En esta tesis se han propuesto soluciones para aquellas tareas para las que no existían técnicas adecuadas (acceso a la Web Oculta del lado cliente) y se han presentado nuevas técnicas que mejoran el estado del arte actual en otras tareas (acceso a la Web Oculta del lado servidor y estructuración automática). El resto de tareas involucradas en la arquitectura (como crawling dirigido) pueden ser implementadas haciendo uso de técnicas presentadas previamente en la literatura, como se ha comentado en la sección III.2, donde se describe la arquitectura propuesta.
Las técnicas propuestas han sido implementadas y probadas con un amplio número de fuentes web reales, pertenecientes a diferentes dominios de aplicación. Los resultados de estos experimentos han sido muy prometedores, avalando la eficacia de este enfoque. Los experimentos se han descrito en la sección IV.1.
CONCLUSIÓN 2: Es posible automatizar el acceso a la información contenida en la Web Oculta del lado cliente.
La arquitectura presentada en la sección III.2 permite el acceso a la información contenida en la Web Oculta del lado cliente, mediante la utilización de mini-navegadores como componentes para la descarga de documentos web e implementando sobre ellos los algoritmos de navegación sobre páginas dinámicas definidos en el apartado III.3.
El problema del tratamiento de la Web Oculta del lado cliente ha recibido muy poca atención hasta el momento. En la actualidad, con el gran éxito que están teniendo tecnologías como Ajax, los sitios web están tendiendo a utilizar cada día más este tipo de tecnologías. Aunque el uso de estas técnicas para un crawling global puede ser aún dificultoso por razones de eficiencia (ver la sección V.3.6 para una discusión más detallada), el uso de estas técnicas está plenamente justificado para un crawler dirigido, orientado a obtener la mayor cantidad de información relevante para una temática objetivo.
Podemos concluir que no sólo es importante disponer de un contenedor capaz de tratar con las tecnologías del lado cliente, sino que es también necesario un nuevo modelo de navegación sobre las páginas dinámicas, caracterizadas por poder generar nuevos elementos en una página a partir de las interacciones que un usuario realice sobre ella. Las técnicas propuestas en este trabajo satisfacen ambos requisitos.
Finalmente, se quiere resaltar que el modelo presentado para abordar las problemáticas que el tratamiento de la Web Oculta del lado cliente introduce, ha sido utilizado de forma exitosa en varias aplicaciones empresariales, en los campos de búsqueda corporativa y vigilancia tecnológica, como parte de un producto real como se ha comentado en la sección IV.3.
CONCLUSIÓN 3: Es posible definir dominios de aplicación válidos para el algoritmo de reconocimiento de formularios, de forma sencilla y considerando un número reducido de fuentes del dominio.
El estudio realizado por Chang et al. en [CHLP+04] apuntaba en esta dirección, y en nuestros experimentos del apartado IV.1.1 hemos llegado a la misma conclusión, siendo posible crear especificaciones de dominio efectivas de forma sencilla y rápida, explorando sólo un conjunto reducido de fuentes en un dominio de aplicación para encontrar los atributos y alias más relevantes para el mismo. Incluso con especificaciones de dominio sencillas como las utilizadas en el prototipo realizado, se consiguen resultados muy buenos. Esto se debe a que el vocabulario utilizado para identificar los campos de los formularios para un dominio de aplicación determinado suele converger con gran rapidez.
CONCLUSIÓN 4: Las técnicas de reconocimiento de formularios web propuestas en este trabajo son efectivas con fuentes web reales.
Las técnicas presentadas en la sección III.4 crean el modelo de formularios web en base a una serie de heurísticas de distancia visual entre textos y elementos del formulario. A partir de un formulario modelado, obtienen su relevancia respecto a una especificación de dominio de aplicación y en el caso de que determinen que un formulario puede ser considerado como relevante, generan de forma automática nuevas rutas que permitan acceder a la información contenida en la base de datos subyacente al formulario.
Los resultados obtenidos de los experimentos descritos en el apartado IV.1.1 son bastante prometedores: todas las métricas muestran valores altos y algunos incluso alcanzan el 100%. Estos experimentos utilizaron fuentes web reales en diferentes dominios de aplicación, utilizando formularios de consulta diversos con un número y disposición de campos muy variable.
Estas técnicas también han sido aplicadas con éxito en un sistema real de mantenimiento de secuencias de navegación de programas envoltorio de fuentes web, como se ha comentado en la sección IV.2.
CONCLUSIÓN 5: Las técnicas de estructuración automática de registros de datos contenidos en páginas de resultados de formularios de consulta web son efectivas con fuentes web reales.
El método propuesto para estructuración automática de páginas de resultados sólo necesita como entrada una página conteniendo una lista de registros. El método comienza localizando la región de datos que contiene la lista dominante. Como siguiente paso, se realiza un proceso de agrupamiento (‘clustering’) para limitar el número de divisiones en registros candidatas en la región de datos. Posteriormente, se selecciona la que proporciona una mayor auto-similitud de acuerdo a técnicas basadas en distancia de edición entre cadenas. Finalmente se utiliza un algoritmo de alineamiento múltiple de secuencias para extraer los valores de los atributos de cada registro de datos.
En los experimentos que se comentan en el apartado V.1.4 se han obtenido valores de precisión y alcance muy altos 0.9793 y 0.9829 respectivamente. Estos experimentos utilizaron fuentes web reales en diversos dominios de aplicación, tales como comercio electrónico, búsqueda de patentes o vuelos.
CONCLUSIÓN 6: La implementación de las técnicas propuestas supone una solución a los principales problemas que plantea la extracción de información estructurada perteneciente a la Web Oculta, relevante para un dominio.
Aunque el prototipo realizado no constituye una implementación completa de la arquitectura propuesta, permite concluir que las técnicas propuestas constituyen una solución efectiva a los problemas de obtención de información estructurada de la Web Oculta. Los resultados obtenidos en los diferentes experimentos realizados con fuentes web reales han sido muy prometedores, consiguiendo extraer información relevante para un dominio de aplicación, de la Web Oculta.
De todas formas, el prototipo realizado no implementa la arquitectura propuesta de forma completa porque no incluye los clasificadores de documentos y formularios utilizados para que el proceso de crawling no diverja a sitios web no relevantes. Como se ha comentado, el prototipo basa su dirección sólo en la aplicación de expresiones regulares sobre las rutas, para determinar la dirección del crawling. Una implementación completa podría utilizar para este propósito las técnicas presentadas previamente en otros trabajos y que han sido descritas en los apartados II.2 y II.3.3.3.
CONCLUSIÓN 7: Las tareas de crawling dirigido pueden beneficiarse en gran medida del acceso a los contenidos de la Web Oculta.
Diversos estudios se han ocupado de caracterizar la Web Oculta [Bergman00] [CHLP+04], llegando a la conclusión de que contiene mucha más información que la que es accesible directamente a través de enlaces, y además de mucha mayor calidad.
Actualmente los procesos de crawling global no son capaces de considerar el volumen de páginas de la Web de Superficie, continuamente en aumento. Sin embargo, la inclusión de información de la Web Oculta permitiría obtener información de más calidad y, algo
todavía más importante considerando la visión estructurada de esa información, permitiría la realización de consultas más precisas.
Adicionalmente, parte de la Web formada por páginas estáticas no está accesible por los problemas introducidos por las tecnologías de cliente utilizadas en la construcción de páginas web. Aunque muchos sitios web populares evitan la utilización de código script y otras tecnologías similares para ser correctamente indexados por motores de búsqueda globales como Google, sitios web de tamaño medio conteniendo información de gran valor continúan utilizándolas de forma intensiva. Es especialmente el caso de sitios web que requieren suscripción o autenticación de usuarios. Debido a que estos sitios no tienen ningún incentivo para facilitar el trabajo a los grandes motores de búsqueda, continúan utilizando de forma intensiva tecnologías para proporcionar dinamismo en el lado cliente. Sin embargo, esta clase de sitios normalmente son los que proporcionan la información más valiosa para muchas aplicaciones de crawling dirigido, como vigilancia tecnológica o motores de búsqueda verticales (de unas temáticas determinadas). Además, la aparición de tecnologías como Ajax convierte esta necesidad en todavía más importante.
Por esta razón se concluye que los esfuerzos para acceder a la información contenida en la Web Oculta son valiosos y deben de ser continuados.