• No results found

Complex Dynamical Systems Theory

Complexity Theory

2.2. Complex Dynamical Systems Theory

El Crawler se desarrolló en Java utilizando la API de HTMLUnit. HTMLUnit es un navegador Web sin interface de usuario, se acopla perfectamente a software en Java ya que está desarrollado en este lenguaje. Como todo navegador permite viajar entre páginas del mismo sitio o de otros sitios utilizando los enlaces contenidos en las páginas Web visitadas. Permite también el llenado y envío de formularios. Esta característica es de suma importancia cuando se utiliza HTMLUnit con la finalidad de obtener datos generados en páginas dinámicas.

Para extraer las críticas hacia los hoteles desde TripAdvisor utilizando HTMLUnit se partió de la página principal de TripAdvisor que se muestra en la siguiente figura.

134

Figura 6.3. Página inicial de TripAdvisor

En la figura 6.3 se puede observar que sólo es necesario interactuar con dos elementos: el cuadro de texto para indicar la ciudad y el botón para encontrar hoteles. Para la navegación entre páginas en necesario identificar los elementos HTML con los que se va a interactuar. Para tener acceso a los elementos Web de la página, tales como botones, formularios, cuadros de texto, hiperenlaces, párrafos, etc. HTMLUnit necesita conocer el código HTML.

Un complemento de Firefox que resulta de gran importancia para la identificación de los elementos HTML en las páginas Web es Firebug. Este complemento es un paquete de utilidades con las que se puede analizar y editar el código fuente ya sea CSS, HTML y Javascript. En la figura 6.4 se puede apreciar en la parte inferior el código fuente de la misma página de la figura anterior. Los elementos que se visitan en el código se señalan en la versión gráfica de la página, lo que permite la identificación más versátil de los elementos Web.

Indicar la ciudad

135

Figura 6.4. Página inicial de TripAdvisor y Firebug

Al indicar la ciudad de la que se desean extraer los comentarios, el sitio devuelve la página de los hoteles de la ciudad. Una vez en la lista de hoteles es necesario navegar a cada hotel para extraer los comentarios y los datos disponibles de los usuarios que generaron las críticas. La ruta que se siguió para obtener las críticas de los hoteles se muestra en la figura 6.5.

Figura 6.5. Ruta de navegación para recolección de datos

La página de hoteles además de mostrar información relacionada con la cantidad de críticas emitidas por los usuarios y la posición global de cada hotel en las calificaciones de los hoteles de la ciudad, permite navegar hasta los comentarios relacionados con cada hotel. Las figuras 6.6 y 6.7 muestran un ejemplo de estas páginas.

Página Principal

Página de hoteles

Página de críticas

136

Figura 6.6. Lista de hoteles de una ciudad Figura 6.7. Lista de comentarios de un hotel

Una vez que cada comentario se recolecta se accede a la página de los datos del usuario (figura 6.8) para registrarlos en la base de datos.

Figura 6.8. Datos del usuario

Los datos recolectados se registraron en una base de datos cuya estructura se ilustra en la figura 6.9. Las principales tablas de la base de datos que registran los datos recolectados son: place, hotel, review y user. El diseño de la base de datos está en función de las necesidades concretas planteadas en la sección 6.3 en donde se detalló el problema. Las tablas hotel y review que almacenan los datos relacionados con las calificaciones cualitativas de los hoteles y los comentarios emitidos por los clientes son las tablas principales. La tabla place si implementó con la finalidad de controlar el orden y el agrupamiento de los hoteles por ciudad y por país. Al considerar que la descarga de datos usando un crawler es lenta, se buscó aprovechar el acceso al sitio web para descargar tantos datos como fuera posible para obtener datos que pudieran ser

137

utilizados con otros propósitos en investigaciones posteriores. Por esta razón se recolectaron los datos de los usuarios que, aunque no son relevantes para la presente investigación, indican la edad, el género, la ubicación y algunas preferencias de viaje, que pueden ser utilizados con fines estadísticos en investigaciones futuras.

Figura 6.7. Base de Datos de crítica de hoteles

6.3.1.3 Extracción de datos

Los datos se recolectaron entre Abril del 2013 y Mayo del 2014. Considerando que algunas de las herramientas y recursos seleccionados sólo funcionan con textos en inglés, la mayoría de las ciudades seleccionadas cuentan con textos originales en esta lengua (Bremner & Grant, 2014; Hedrick-Wong & Choog, 2014). Sin embargo, para evaluar los resultados del análisis de sentimientos en una variedad de contextos, también se seleccionaron ciudades en donde el idioma principal no es el inglés, así como otras ciudades que reciben relativamente pocas visitas turísticas. La siguiente

138

tabla muestra las cantidades de críticas recopiladas y los porcentajes de críticas en inglés, así como el número de hoteles por ciudad.

Ciudad y País Número total de críticas Número de críticas en Inglés % de críticas en inglés Número de hoteles por ciudad Londres, RU 483,478 372,755 77.10 1021

Nueva York, EEUU 312,307 242,661 77.70 418

Las Vegas, EEUU 203,208 180,966 89.05 223

París, Francia 294,995 173,026 58.65 1739

Anaheim, EEUU 39,698 37,817 95.26 90

Santa Ana, EEUU 1,576 1,523 96.64 24

Alcalá de Henares, España 519 123 23.70 20

Total 1,335,781 1,008,871 75.53* 3535

Tabla 6.1. Información de las críticas recopiladas.

*Promedio de porcentajes