Complexity Theory
2.1. Complexity Theory and Social Sciences
Los resultados de la propuesta muestran una mejora al clasificar los tweets positivos y neutros pero no al clasificar tweets negativos. Al observar la clase “positivo” para los tweets identificados con opinión positiva en la tabla 5.14 y compararlos con la eficiencia de las herramientas para la misma clase (tabla 5.11) se observa un buen margen de mejora en las tres medidas.
Tweets
publicados por:
Resultados de Sentweet Clase “Positivo”
VP FN VN FP Exactitud% Precisión% Recuperación%
Sentiment140 134 34 333 143 72.52 48.38 79.76
TweetFeel 290 14 451 88 87.90 76.72 95.39
Twitrratr 161 44 291 76 79.02 67.93 78.54
Tabla 5.14. Eficiencia de Sentweet (tweets Positivos)
Sin embargo, el panorama es diferente cuando se compara la eficiencia para la clase negativa (tabla 5.15). Sentiment140 y TweetFeel reportan mejor eficiencia que Sentweet, lo cual denota una debilidad de éste en la identificación de tweets con opinión negativa en comparación con estas dos herramientas. La única herramienta con menor eficiencia que Sentweet en la clasificación de tweets con opinión negativa es Twitrratr que utiliza el algoritmo basado en palabras clave (keyword-based).
Un análisis más profundo de las razones por las cuales Sentweet resulta menos eficiente al clasificar los tweets con opinión negativa permitió identificar los siguientes motivos: a) Mensajes cuya opinión no se encuentra gramaticalmente cercana al objeto de
opinión, de tal forma que el analizador sintáctico no encuentra las relaciones adecuadamente. Un ejemplo de esta situación es el siguiente tweet.
“Blocked Ears Fluid Hearing tinnitus noises or ringing sometimes can be as a result of aspirin”
125
b) Mensajes cuya semántica resulta complicada al analizar la opinión. En el siguiente caso por ejemplo (calificado como positivo por Sentweet), los humanos parecen interpretar poca eficacia del medicamento o simplemente una actitud predominantemente negativa mientras que el analizador propuesto detecta una verdadera necesidad del medicamento que interpreta como actitud positiva hacia éste.
“just landed at j.town. please headache go away !!! maybe i really really need 1000 aspirin to kill this fuckin' disease :s”
c) Mensajes que pueden no tener una opinión como tal hacia el objeto pero tener una connotación global negativa.
“that has aspirin in it so i don't think so. i could b wrong tho. my dr told me not to take any aspirin while pregnant or nursing”
d) Mensajes escritos sin utilizar reglas gramaticales correctas.
“@jemjem1983 vitamin c + calcium + aspirin = won't develop into anything. hot milk + butter + honey = throat pain goes away :d”
La mayoría de los ejemplos descritos resultan sencillos de evaluar para los humanos por la gran capacidad de éstos para identificar el significado del texto y para comprender textos ambiguos, así como la tolerancia a errores de escritura y de sintaxis.
Un aspecto interesante de los casos mencionados es que varios de ellos pueden ser correctamente clasificados mediante el uso del sencillo método de conteo de palabras y expresiones negativas, el enfoque de bolsas de palabras por la cantidad de palabras con connotación negativa contenidos en ellos.
Tweets
publicados por:
Resultados de Sentweet Clase “Negativo”
VP FN VN FP Exactitud% Precisión% Recuperación%
Sentiment140 58 65 434 87 76.40 40.00 47.15
TweetFeel 294 161 352 36 76.63 89.09 64.62
Twitrratr 65 28 402 77 81.64 45.77 69.89
Tabla 5.15. Eficiencia de Sentweet (tweets Negativos)
La eficiencia en los resultados de la clasificación de mensajes neutros es un buen indicador de la capacidad de un algoritmo para distinguir entre la objetividad y la subjetividad en el texto. Al comparar la eficiencia de Sentweet (tabla 5.16) con las
126
herramientas, se puede encontrar también una mejora en las tres medidas. El caso más sobresaliente es el de los tweets publicados por TweetFeel. En este caso se puede observar que la exactitud es muy similar por lo que al comparar sólo esta medida se podría deducir muy poca mejora en los resultados de la clasificación. Sin embargo, al comparar la precisión y la recuperación se observa una mejora considerable. Con base a estos resultados se puede asegurar que el coeficiente de neutralidad introducido en esta propuesta funciona con buenos resultados. Sin embargo para llegar a una conclusión más contundente habría que estudiar la influencia que tiene este coeficiente en la clasificación menos eficiente de los tweets con opinión negativa.
Tweets
publicados por:
Resultados de Sentweet Clase “Neutro”
VP FN VN FP Exactitud% Precisión% Recuperación%
Sentiment140 170 183 278 13 69.57 92.90 48.16
TweetFeel 23 61 751 8 91.81 74.19 27.38
Twitrratr 178 96 242 56 73.43 76.07 64.96
Tabla 5.16. Eficiencia de Sentweet (tweets Neutros)
Como ya se comentó en la sección 5.6, aquellos tweets cuya opinión no se centraba en estos objetos fueron etiquetados como neutros por los expertos humanos. Por lo que en relación al análisis de sentimientos centrado en el objeto de opinión, le mejora en la eficiencia de la clasificación de tweets neutros es una mejora también en la capacidad para identificar tweets cuyo opinión no se centre en el objeto de opinión.
Exactitud% Precisión% Recuperación% Herramientas Sentweet Herramientas Sentweet Herramientas Sentweet
Sentiment140 57.45 69.57 79.70 92.90 30.03 48.16
TweetFeel 89.56 91.81 0.00 74.19 0.00 27.38
Twitrratr 66.43 73.43 68.98 76.07 54.38 64.96
Tabla 5.17. Comparativa de eficiencia en la clasificación de tweets neutros
La tabla 5.17 compara la eficiencia de las herramientas para clasificar tweet neutros contra la eficiencia de Sentweet. La exactitud puede ser un tanto ambigua al reportar mejoras en la eficiencia como ya se ha mencionado. Por lo que los resultados a los que se deben prestar más atención son la precisión y la recuperación. La tabla 5.18 nos muestra los incrementos en los tres índices.
127
Exactitud% Precisión% Recuperación%
Sentiment140 12.12 13.20 18.13
TweetFeel 2.25 74.19 27.38
Twitrratr 7.00 7.09 10.58
Tabla 5.18. Porcentajes mejorados de eficiencias en la clasificación centrada en el objeto
Tanto la precisión como la recuperación se concentran en los resultados correctos y no en los resultados globales como la exactitud.
5.7 Resumen del capítulo
El objetivo fue desarrollar un algoritmo para el análisis de sentimientos en tweets. La idea central de esta propuesta fue evitar ineficiencias en el procesamiento de los tweets en que incurren otros métodos de análisis de sentimientos disponibles (las cuales se explican en detalle más adelante). Utilizando como datos de prueba, un conjunto de 2.059 mensajes de Twitter que fueron analizados previamente por tres herramientas de análisis de sentimientos disponibles públicamente y etiquetados manualmente por un grupo de expertos humanos como positivos, negativos y neutros, se evalúo la eficiencia de la propuesta en comparación con la eficiencia de las tres herramientas mencionadas. Para evitar el doble proceso que implica clasificar primero los mensajes como subjetivos u objetivos y posteriormente clasificar aquellos mensajes subjetivos como positivos o negativos de acuerdo a la orientación del sentimiento, se reentrenó el léxico introduciendo un coeficiente de objetividad para los verbos y adjetivos que contribuyen a orientar semánticamente a los mensajes ya sea positiva o negativamente. La principal implicación práctica de la propuesta es que con la disponibilidad de grandes cantidades de tweets para el análisis de sentimientos, un algoritmo que sea capaz de realizar un análisis de sentimientos de forma eficiente y sin incurrir en dobles procesamientos puede otorgar a los usuarios resultados disponibles más rápidamente. Considerando además que, utilizando este enfoque, es posible detectar y extraer las palabras de opinión utilizadas más frecuentemente para emitir opiniones positivas y negativas hacia determinado objeto, el algoritmo produce esta información que puede mejorar la práctica del boca a boca electrónico con herramientas visuales como nubes de palabras, y otras.
128
Los resultados de los experimentos demuestran que es posible obtener mejores resultados a los obtenidos con otros algoritmos que no se enfocan en determinar el sentimiento relacionado directamente con el objeto de opinión sin necesidad de efectuar dobles procesos para la clasificación (López, Sánchez, & Sicilia, 2015).
129