5. Policy Implications and Concluding Remarks
5.4. Concluding Remarks
Esta sección va de la mano de la sección de análisis de datos. En ella se detalla cómo se han orga- nizado los cuadros de mando y qué representaciones, gráficas y resultados han decidido representarse
y porqué.
5.3.6.2 Descripción del conjunto de datos
Esta tabla se utiliza para ofrecer estadísticas descriptivas sobre el conjunto de datos analizado. Una de las claves de la presentación del análisis de datos es ayudar al usuario a entender mejor qué es lo que va a analizarse.
Tabla 5.1: Estadística descriptiva del Dataset
Cifra Descripción
68534 Número de tweets recopilados
48650 Número de tweets limpios tras preproceso
3.97 Media de seguidores por perfil analizado
4.38 Media de favoritos por tweet analizado
Todas las métricas incluidas sirven al usuario para hacerse una idea del tamaño del conjunto de
datos, de la popularidad que alcanzan de media los tweets que analizamos, cómo de popular es la población analizada en twitter... En definitiva, esta tabla cumple la función de dar un contexto al análisis posterior.
5.3.6.2 Visualización del análisis de sentimiento
Para el análisis de sentimiento se ha diseñado un cuadro de mando con tres gráficas que propor- cionan información estadística sobre los resultados obtenidos durante dicho análisis.
90 5.3. FASE DE CONSTRUCCIÓN
• Los números: Situado en la esquina superior izquierda, se trata de un gráfico que muestra el porcentaje de tweets que pertenecen a cada sentimiento. Como puede apreciarse, más de la mitad de los tweets son de sentimiento neutro, concretamente un 62.06 %. Por otro lado, es interesante ver que los tweets de sentimiento positivo superan a los de sentimiento negativo
en más del doble. De este gráfico podemos sacar como conclusión que no hay un consenso en cuánto a opiniones sobre educación dentro de la población estudiada, sin embargo casi un tercio de la población es optimista sobre la misma.
• Tweets & Sentimiento: Situado en la franja derecha, se trata de un gráfico por columna donde se muestra el identificador de cada tweet junto con su texto. Además, cada fila está coloreada conforme al sentimiento al que pertenece el tweet. Realmente, no es posible sacar ningún conocimiento útil de este gráfico, sin embargo creo de vital importancia incluirlo ya que
permite al usuario final verificar el funcionamiento del algoritmo de análisis de sentimiento, comparar tweets aparentemente distintos que comparten sentimiento y otras actividades de contraste de resultados.
• Popularidad: Situado en la esquina inferior izquierda, se trata de un gráfico de barras cuyo eje horizontal es el sentimiento y su eje vertical el número de seguidores del usuario que publicó el tweet. Esta gráfica es especialmente interesante ya que normalmente se mide la popularidad de un perfil con el número de seguidores que posee. El objetivo es mostrar qué sentimiento tienen
los tweets publicados por perfiles de mayor popularidad. En este caso, es muy interesante fijarse en que los tweets de sentimiento negativo se concentran en cuentas de pocos seguidores lo cuál significa que la expansión de opiniones negativas es menos frecuente.
5.3.6.3 Visualización del modelado de temas
El primer resultado conseguido es la nube de palabras del dataset en general. En ella podemos ver como las palabras relacionadas con el dominio de la educación son, sin lugar a dudas, las más frecuentes. Las palabras más frecuentes son aquellas que aparecen más en el centro y con un tamaño
mayor, de igual manera que mientras más pequeñas y más alejadas están del centro menos frecuentes son. No obstante, esta primera nube de palabras también nos sirve para comprobar que el preproceso del texto no ha sido del todo correcto. Palabras comoamp, can, will... realmente no aportan ningún significado en cuánto a análisis de temas se refiere. En definitiva, este primer resultado nos sirve para conocer el texto que analizamos en nuestro dataset y para valorar el preproceso seguido.
CAPÍTULO 5. RESULTADOS 91
Figura 5.8: WordCloud General
Tras la segunda fase de preproceso disponemos de un texto mucho más limpio y apto para su análisis. Recordemos como el siguiente paso consiste en tratar los datos y realizar un proceso de
agrupación de palabras que produce como resultado un conjunto de cuatro temas. Es sobre cada uno de estos temas sobre los que ahora obtenemos una nube de palabras.
92 5.3. FASE DE CONSTRUCCIÓN
Figura 5.9: WordCloud por temática
Las conclusiones que pueden sacarse de estas nuevas nubes de palabras por tema son:
• El gráfico situado en la esquina superior izquierda de color azul se corresponde con el tema
que reconocimos como “Experiencia educativa”. En el predominan palabras como experiencia, programa, profesores, universidad, colegio. Estas palabras guardan relación con el tema y vemos como por ejemplo, la palabra universidad o profesor aparecen con más frecuencia que
otras como experiencia o personas.
• El gráfico situado en la esquina superior derecha de color naranja se corresponde con el
tema que reconocimos como “Aprendizaje”. En este tema predominan palabras como apoyo, aprendizaje, futuro y presente, entendimiento. Hay cierta separación en la frecuencia con la que aparecen las palabras aprender o aprendizaje frente a otras como apoyo, entendimiento o
futuro. Esto puede indicar que se habla más del propio proceso de aprendizaje que del estado en el que se realiza.
• El gráfico situado en la esquina inferiorr izquierda de color verde se corresponde con el tema que reconocimos como “Factor Temporal”. En este caso vemos como las palabras sobre el tiempo no son tan frecuentes como podríamos haber pensado por análisis previos. Día, o
tiempo aparecen con más frecuencia que atender, o no atender. Esto puede indicar que el tema se centraliza más en la rutina de asistir a clase más que en el tiempo invertido en el estudio o aprendizaje.
• El gráfico situado en la esquina inferior derecha de color rojo se corresponde con el tema que reconocimos como “Universidad”. Si miramos con atención, empiezan a aparecer palabras
como trabajo o grado. Esto nos indica que este tema está relacionado con la salida profesional de la universidad, que es la palabra más frecuente junto con estudiante en este tema.
CAPÍTULO 5. RESULTADOS 93
En este punto podemos hacernos una mejor idea sobre qué está hablando la población estudiada
dentro del propio campo de la educación. Sin embargo, me gustaría profundizar más en cuál es la importancia de estas palabras dentro de cada tema, su peso. A la hora de evaluar el siguiente gráfico hay que fijarse en que palabras aparecen en varios temas, además de que palabras tienen una
frecuencia relativa mayor que su peso. Normalmente estos casos implican que esas palabras tienen menor importancia.
Figura 5.10: Frecuencia y Peso
En nuestro caso podemos ver como no existe ninguna palabra que aparezca en múltiples temas lo cuál es muy buena señal. Esto significa que el algoritmo LDA se ha aplicado de una forma óptima,
validando también el preproceso en gran medida. Sin embargo, si que podemos observar varias palabras donde se da el caso de que su frecuencia excede en gran número al peso que le corresponde a cada palabra. En los temasAprendizaje y Factor Temporal esta situación no tiene prácticamente repercusión, sin embargo si observamos el temaExperiencia Educativa vemos como las palabras people y good tienen una importancia muy baja en relación a su frecuencia. No obstante, estas palabras no pertenecen al dominio de la educación por lo que no es un dato especialmente desalentador. Por
otro lado el temaUniversidad si que contiene varios casos de este tipo de palabras. El único caso más preocupante es el de la palabrawork. En un primer momento se interpretó work como trabajo, sin embargo este dato lleva a pensar que, por su bajo peso, se refiere más a trabajos dentro de la universidad como prácticas de laboratorio o entregables.
94 5.3. FASE DE CONSTRUCCIÓN
Figura 5.11: t-SNE
En este gráfico podemos ver los temas en un formato de dos dimensiones donde cada tema está
representado como un clúster individual. Si nos paramos a pensar, hasta ahora hemos obtenido una gran cantidad de información relativa a cada tema: sus palabras clave, frecuencias, importancia. Sin embargo, hasta este momento no habíamos estudiado los cuatro temas en conjunto. En el t-SNE
podemos observar como existen dos temas con una frecuencia mucho mayor que los demás; estos son la experiencia educativa y la universidad. Es muy interesante observar como algunos puntos coinciden en ambos temas, lo cuál nos indica que tienen más relación entre ellos que con otros temas.
Por otro lado observamos como los temas del aprendizaje y el factor temporal son claramente minoritarios frente a los anteriormente mencionados. Además, el factor temporal en particular no
coincide prácticamente nada con ningún otro tema; mientras que el aprendizaje sí que tiene relación tanto con la experiencia educativa como con la universidad. Con esto sacamos la conclusión de que el factor temporal es la temática menos comentada en las redes sociales por lo que no preocupa en
demasía a la población estudiada. También podemos concluir que, cuándo se habla de aprendizaje, la población se refiere mucho más a la universidad que a otras etapas escolares. Esto último se deduce por como la distribución del tema tiende hacia la derecha, donde está la temática de la universidad.
5.3.6.4 Visualización del cruce de análisis
Este es el último cuadro de mando creado por el sistema, y uno de los más importantes ya que es del cuál extraemos las concluisones finales de toda la fase de análisis y transformación de los datos y podremos usar estas interpretaciones para resolver el objetivo del proyecto. Existe un gráfico
compuesto por dos partes para cada clúster de sentimiento analizado. La parte izquierda es un gráfico de barras de color rojo donde se analiza la frecuencia de temas, mientras que la gráfica del lado derecho de color azul indica la importancia (el peso) de los temas.
CAPÍTULO 5. RESULTADOS 95
Figura 5.12: Resultado del clúster positivo
En primer lugar podemos observar como el tema de la Universidad (Topic 3) es el más frecuente en este clúster, por lo que se puede deducir que el hecho de ir a la universidad, los planes de estudio, tener
una carrera y en general, todo el tema universitario está bien valorado entre la población estudiada. Por otro lado, dentro de la sensación positiva, el tema menos frecuente es el factor temporal.
Si nos fijamos en el gráfico de la derecha, podemos ver como el tema más frecuente es también el
más importante en este clúster. Esta relación es positiva en el sentido de que cuándo se da el caso de que la frecuencia se corresponde con el peso del tema, el resultado es mucho más fiable. La otra conclusión que podemos extraer es de nuevo sobre el tema del factor temporal, ya que su peso es
mayor a su frecuencia. Esto nos indica de que es un tema que no se trata a menudo, pero cuando se hace genera muchas respuestas a su alrededor.
En cuánto a los resultados para el clúster de sentimiento negativo:
Figura 5.13: Resultado del clúster positivo
Observamos como prácticamente existe un empate técnico en los temas del factor temporal y la universidad, tanto hablando de frecuencia del tema como hablando de la importancia del mismo. En esta gráfica es importante recordar como el clúster de sentimiento negativo incluye algo menos de
la mitad del tweets que el positivo. En definitiva, la universidad y el factor temporal que implica es de lo que más se queja la población estudiada, aunque la importancia de estos temas no tiene una diferencia tan grande con la de los otros dos temas restantes.
Finalmente, podemos concluir que:
• La universidad es el tema más popular entre la población estudiada cuándo se habla sobre educación