The Sky Became the Perfect Colour and Back Again

La Tabla 13 presenta un conjunto de trabajos relevantes a esta investigaci ón. La mayor´ıa de los trabajos realizan un an álisis de sentimiento a nivel de documento, exceptuando el trabajo de Tanget al.(2016), el cual realiza un an álisis a nivel de enunciado.

Con respecto al corpus de opini ón de “MuchoCine”, los trabajos de Mart´ın-Valdiviaet al.(2013), Ortega del Castillo (2015) y Garc´ıaet al. (2015), emplean t écnicas de aprendizaje supervisado, mientras que Mart´ın-Valdiviaet al.(2013) combinan m étodos supervisados y no supervisados en conjunto con el uso de un diccionario ling ü´ıstico. Ortega del Castillo (2015) utiliz ó un algoritmo

Tanget al.(2016) muestran que dise ñar redes neuronales para el aprendizaje de vectores palabra, para dominios de opini ón espec´ıfico, puede beneficiar a la tarea del an álisis de sentimiento, as´ı como otras áreas del procesamiento del lenguaje natural.

Una red neuronal con memoria a largo y corto plazo (LSTM), fue propuesta por Xu et al. (2016) para la clasificaci ón de polaridad del sentimiento a nivel de documento. Su propuesta, en comparaci ón con otras arquitecturas de redes neuronales del tipo recurrentes (RNN), presenta mejores resultados en el valor de exactitud en la clasificaci ón; 0.59 bajo el corpus de opini ón de Yelp 2014.

Singhal y Bhattacharyya (2016) realizaron un an álisis de sentimiento en m últiples lenguajes, para ello utilizaron un traductor, el cual traduce cualquier lenguaje al ingl és. De esta manera, pueden relacionar cada palabra traducida al ingl és, a un vector palabra previamente entrenado; siguiente a esto, alimentan una red neuronal convolucionalCNN con los vectores palabra que re- presenten una opini ón, en conjunto con vectores palabra los cuales se encuentran etiquetados con su polaridad (si representan una palabra positiva o negativa). Los experimentos fueron realizados empleandoTweets para el caso del lenguaje espa ñol. Sus resultados muestran que al entrenar una red neuronal convolucional, aumentando los datos de entrenamiento con palabras con pola- ridades previamente etiquetadas, mejora los valores deF-Score de su clasificador, en contraste con el mismo clasificador al no contemplar este aumento. Para el idioma espa ñol, obtuvieron un valor deF-Scorede 0.852, utilizando un total de 1033Tweets(683 positivos y 350 negativos).

Liet al. (2017) utilizan109 vectores palabra extra´ıdas deGoogle news, en conjunto con una red generativa adversaria (GAN). El corpus de opini ón que utilizan proviene deAmazon, la idea principal es realizar an álisis de sentimiento entre dominios distintos, esto es, realizar una clasificaci ón de sentimientos independiente de qu é clase de opiniones se traten; para ello utilizaron 1600 documentos de opini ón de dominios como libros, pel´ıculas, electr ónicos y art´ıculos de cocina.

Obtienen un valor de exactitud de alrededor del 0.87.

Uysal y Murphey (2017) realizaron una comparaci ón entre m étodos de selecci ón de caracter´ısticas y m étodos de aprendizaje profundo (deep learning); al igual se compar ó la combinaci ón de cada uno de estos m étodos en conjunto con vectores palabra, los experimentos se enfocaron en el an álisis de sentimientos a nivel de documento. Se consideraron m étodos como ganancia de informaci ón (IG) (Uysal, 2016), indice Gini (GI) (Shanget al., 2007) y selector de caracter´ısticas distintivas (DFS) (Uysal y Gunal, 2012) as´ı como redes neuronales convolucionales (CNN), red neuronal con memoria a largo y corto plazo (LSTM) y una combinaci ón de ambas; as´ı como las combinaciones que contemplan vectores palabra.

Los resultados de este estudio (Uysal y Murphey, 2017) muestran que los modelos de aprendizaje profundo en combinaci ón con vectores palabra, son los vencedores en tres de cuatro con- juntos de prueba, siendo estos cr´ıticas de cine extra´ıdas deIMDB,Tweets, corpus de cr´ıticas de art´ıculos de m últiples dominios y opiniones deAmazon; en particular obtuvieron un 0.89 de exactitud en IMDB mediante la combinaci ón de los dos tipos de redes neuronales en conjunto con vectores palabra. Por otro lado, mediante una combinaci ón de ganancia de informaci ón y vectores palabra, obtuvieron la mejor exactitud con un valor cercano al 0.75 en el corpus de tweets. Es interesante notar que la inclusi ón de vectores palabra en ambos casos, resulta en el factor que permite los mejores valores de exactitud.

La calidad de los vectores palabra se encuentra dada mediante las relaciones sem ánticas hacia otras palabras, sin embargo, en ocasiones no se cuenta con corpus de texto de dominios espec´ıficos, lo suficientemente grande, esto suele afectar a los vectores palabra resultantes. Re- zaeiniaet al.(2017) proponen un m étodo para generar vectores palabra mejorados (IWV), el cual mediante m étodos como etiquetado morfosint áctico y un enfoque basado en el l éxico, realizaron una mejora en la calidad de estos vectores palabra para la tarea del an álisis de sentimiento. Los experimentos se realizaron empleando distintos modelos de aprendizaje profundo. Sus resultados muestran que el m étodo propuesto, mejora la calidad de vectores palabra previamente entrenados, lo cual se ve reflejado en un aumento en la exactitud al clasificar la polaridad de documentos de opini ón. En particular, al mejorar vectores previamente entrenados medianteword2vec, se mejor ó la exactitud de un 0.794 a un 0.798; de manera similar se muestra una mejora constante en el resto de experimentos realizados.

un corpus de documentos en particular. Lo anterior resulta, de la carencia de benchmarks que especifiquen el nivel de an álisis de sentimiento, una medida de calidad as´ı como un conjunto de documentos de prueba en particular. Por lo general los trabajos en el área emplean variados corpora de prueba as´ı como distintas m étricas de evaluaci ón (F-Score, exactitud).

Aun bajo condiciones distintas, realizamos una comparaci ´on superficial de los trabajos de la Tabla 13, que comparten corpus de prueba (MuchoCine,TripAdvisor) con los empleados en este trabajo de tesis.

En contraste con el procedimiento propuesto en este trabajo, en particular sobre el corpus de opini ón de MuchoCine, trabajos como Mart´ın-Valdiviaet al. (2013) y Garc´ıa et al. (2015) realizaron una combinaci ón de clasificadores donde la polaridad de un documento resulta de emplear un sistema de votaci ón o una arquitectura en cascada, sobre los clasificadores. Ambos trabajos emplearon representaciones de documentos basadas en conteo, Mart´ın-Valdiviaet al. (2013) utiliz ó TF-IDF (Term Frequency-Inverse), TF, TO (Term Occurrence) y BTO (Binary Ter Occu- rrences) y Garc´ıaet al.(2015) representaciones como bolsa de palabra, bigramas de etiquetado morfosint áctico y teor´ıa de la valoraci ón.

Pese a que en ambos trabajos se realiza una combinaci ón de clasificadores, en (Mart´ın- Valdiviaet al., 2013) se utiliz ó la versi ón en espa ñol as´ı como versi ón traducida de “MuchoCine”, cabe mencionar que ambas en su versi ón lematizada. Obtuvieron resultados similares en precisi ón para ambos corpus de “MuchoCine”, en particular se obtuvo un mejor resultado en la versi ón en espa ñol con una exactitud de 0.88 en contraste con su versi ón en ingl és con 0.8696; en particular este último resultado es interesante, ya que la versi ón en ingl és se complement ó con recursos ling ü´ısticos provenientes deSentiWordNet, de manera que esta informaci ón ling ü´ıstica adicional no represent ó una mejora para el clasificador propuesto.

Aunque Mart´ın-Valdivia et al. (2013) y Garc´ıaet al. (2015), compartieran en cierta medida la arquitectura de los clasificadores propuestos, es interesante notar el uso de la representaci ón por bolsa de palabra en (Garc´ıaet al., 2015) y TF-IDF en (Mart´ın-Valdivia et al., 2013), ambas representaciones se encuentran altamente relacionadas y resultaron en los mejores resultados obtenidos para cada caso. Esto podr´ıa indicar que la representaci ón de documentos por conteo conserva de manera conveniente la sem ántica de las opiniones, en particular de documentos de opini ón que tienden a ser altamente descriptivos y por ello extensos, como es el caso de “MuchoCine”.

En contraste con nuestro mejor valor de exactitud de 0.5993 para “MuchoCine” el cual obtuvo una precisi ón de 0.5821, Garc´ıaet al.(2015) logran una precisi ón de 0.97. Este resultado se obtuvo del promedio de 10 ejecuciones realizando una validaci ón cruzada a 10 pliegues. Se utiliz ó un conjunto de prueba de 525 documentos as´ı como una combinaci ón de tres distintos m étodos para obtener un consenso por votaci ón. Es importante notar que este valor de precisi ón es muy superior a otros presentados para documentos en espa ñol, incluso con documentos m ás sencillos como Tweets (Singhal y Bhattacharyya (2016)). Ser´ıa importante reproducir los resultados de Garc´ıa et al.(2015) y verificar que no exista un problema de sobre entrenamiento.

En particular para el corpus de “TripAdvisor”, en Salas-Z árate et al. (2017) se observ ó que a diferencia de Mart´ın-Valdiviaet al.(2013) para“MuchoCine”, el utilizar informaci ón del tipo ling ü´ısti- ca, benefici ó a la clasificaci ón de opiniones, obteniendo un valor de exactitud de 0.90. Esto es interesante, ya que nuestro mejor valor de exactitud fue de 0.826, esto empleando solo informaci ón sem ántica, por lo que contemplar el uso de informaci ón ling ü´ıstica podr´ıa resultar beneficioso para el procedimiento propuesto en este trabajo.

De manera similar, los resultados parciales obtenidos del entrenamiento en la secci ón 4.5, as´ı como los resultados de prueba con documentos desconocidos mostrados en la secci ón A.3; muestra que la selecci ón de componentes deword2vec, puede beneficiar al procedimiento propuesto en este trabajo.

En resumen, si bien los trabajos del estado del arte reportan, en su mayor´ıa, resultados de entre el 0.80 y 0.9 de precisi ´on, nuestros resultados para “MuchoCine” se presentan alejados de este intervalo. Sin embargo, los resultados para “TripAdvisor” s´ı muestran ser competitivos con los del estado del arte. La diferencia observada entre ambos corpora se conjetura que se debe al car ´acter descriptivo de los documentos de “MuchoCine”, lo cual hace dif´ıcil la tarea de detectar

In document Luminol theory and the excavation of narrative & The dead girl scrolls: unearthed apocalyptic fictions (Page 167-172)