Data Analysis Approach - Research Methodology

Chapter 4: Research Methodology

4.2 Data Analysis Approach

Hasta el momento se habló que, al momento de efectuar la clasificación a partir de los mensajes, se obtenían una serie de indicadores que constituyen los perfiles de usuarios. Sin embargo, no se realizó mención alguna a cómo se generan dichos indicadores.

Se sabe que los indicadores son generados a partir de un conjunto de mensajes que el usuario proporciona, junto con un determinado tipo de información. Pero al momento de la predicción, lo que se clasifica concretamente son los mensajes, es decir el contenido textual de cada mensaje. La salida con la cual se desarrollaron los clasificadores, no son los indicadores concretos, sino conductas IPA. Esto quiere decir que el proceso predictivo no se reduce solamente al uso de clasificadores, sino que se tienen otros aspectos como por ejemplo una propuesta de correspondencias, que mapean cada reacción con un determinado indicador Symlog.

Como las reacciones constituyen una agrupación de las conductas IPA, posibilitan mejoras en la clasificación de los mensajes al poder clasificar por etapas. Todos estos aspectos se abordan con

detalle en la presente sección. Cabe destacar que si bien en la Subsección 3.2.2. se explica la estructura de clasificación, las técnicas concretas de Deep Learning se comentan en la Sección 3.3.

3.2.1. Pipeline

El punto de partida para generar los perfiles de usuario son los mensajes que el usuario proporciona a la aplicación web. Para la clasificación de los mensajes se comienza con la teoría IPA, que básicamente consiste en doce categorías de conductas. Como cada mensaje se clasifica con una determinada conducta, el problema se enmarca en un típico problema de clasificación de documentos, en donde la entrada es un determinado texto, y la salida es una categoría. En este caso, la categoría puede ir del 1 al 12, según establece IPA.

A partir de dicha salida, se efectúa una propuesta de mapeo a Symlog, a partir de las conductas. De esta manera el proceso de generación de perfiles queda cerrado e ilustrado en la Figura 3.5, en donde a partir del texto plano provisto por el usuario (mensajes), se obtiene la categorización para finalmente obtener los valores Symlog. Como se podrá observar en la figura, las técnicas de aprendizaje profundo se aplican sólo para la obtención de las conductas asociadas a cada mensaje.

Figura 3.5. Ilustración abstracta del proceso predictivo que se lleva a cabo. Se puede observar que las fuentes de información que provee el usuario, es clasificada a nivel mensaje, para luego trabajar sobre

dichas clasificaciones, resultando en dimensiones Symlog sobre el final.

A partir de la conducta predicha por el clasificador, se obtiene la reacción asociada. Por ejemplo (Takeout), si la red neuronal predijo la conducta C3, la reacción asociada es “Positiva”. De esta manera, las conductas predichas para los mensajes, se mapean a su correspondiente reacción, para luego poder armar los indicadores Symlog. En la Figura 3.6 se muestra el mapeo completo que resulta en cada uno de los seis indicadores Symlog.

Figura 3.6. Obtención de los indicadores Symlog a partir de las conductas IPA [38]. A partir de las conductas del 1 a 12 que se obtienen del clasificador (tabla izquierda), se agrupan en reacciones. Esas reacciones son

las que luego se utilizan para armar los indicadores (tabla derecha).

Como se podrá observar, los datos con los que finalmente cuenta el supervisor, no constituyen solamente los de las conductas predichas por las redes neuronales, sino también los indicadores Symlog. Estos indicadores se establecen a partir de las predicciones de conductas. De esta manera, el resultado para las fuentes de información que el usuario final suba, son una serie de indicadores asociados a cada individuo presente. Se tienen doce valores, correspondientes a las conductas y seis indicadores de Symlog. Cabe destacar también que estos indicadores son para cada persona, pero no de forma general. Es decir, que dichos indicadores serán retornados por el framework para cada persona, pero por cada sesión. De esta manera se posibilita la construcción de diversas métricas para el monitoreo de la evolución de la personalidad de cada usuario, sea a través de tiempo, en función al resto de los integrantes, etc.

3.2.2. Estructura del Clasificador

La teoría IPA, si bien determina que son 12 las conductas posibles para cada mensaje, permite que se puedan agrupar en 4 reacciones. De esta manera, para cada reacción, se tienen tres conductas posibles. Por más que se comente esta agrupación en reiteradas ocasiones esta idea indica que puede ser aprovechada para el desarrollo de los clasificadores, permitiendo un proceso de clasificación en dos etapas. Una primer etapa se clasifica el mensaje en una de las cuatro posibles reacciones, mientras que la segunda etapa, partiendo de la reacción predicha, se clasifica el mensaje en una de las tres posibles conductas pertenecientes a dicha reacción. Esta técnica divide el problema de clasificar en 12 categorías diferentes en un problema de clasificar en 4 categorías y luego en 3. La Figura 3.7 grafica el proceso de clasificación en etapas que se lleva a cabo. En dicha imagen se puede observar que, el problema pasó de necesitar un solo clasificador para predecir

doce conductas, a cinco clasificadores, pero con menos categorías a predecir. Dicha idea constituye un elemento clave para mitigar la probabilidad de error al momento de elaborar predicciones.

Figura 3.7. El mensaje es sometido a un clasificador de reacciones. A partir de la reacción predicha, el mismo mensaje es clasificado por el segundo clasificador que le corresponde.

In document A Study of Shanghai and Hong Kong as International financial centres - a review of their developments and attributable factors (Page 110-115)