• No results found

La Tabla 13 presenta un conjunto de trabajos relevantes a esta investigaci ´on. La mayor´ıa de los trabajos realizan un an ´alisis de sentimiento a nivel de documento, exceptuando el trabajo de Tanget al.(2016), el cual realiza un an ´alisis a nivel de enunciado.

Con respecto al corpus de opini ´on de “MuchoCine”, los trabajos de Mart´ın-Valdiviaet al.(2013), Ortega del Castillo (2015) y Garc´ıaet al. (2015), emplean t ´ecnicas de aprendizaje supervisado, mientras que Mart´ın-Valdiviaet al.(2013) combinan m ´etodos supervisados y no supervisados en conjunto con el uso de un diccionario ling ¨u´ıstico. Ortega del Castillo (2015) utiliz ´o un algoritmo

Tanget al.(2016) muestran que dise ˜nar redes neuronales para el aprendizaje de vectores pa- labra, para dominios de opini ´on espec´ıfico, puede beneficiar a la tarea del an ´alisis de sentimiento, as´ı como otras ´areas del procesamiento del lenguaje natural.

Una red neuronal con memoria a largo y corto plazo (LSTM), fue propuesta por Xu et al. (2016) para la clasificaci ´on de polaridad del sentimiento a nivel de documento. Su propuesta, en comparaci ´on con otras arquitecturas de redes neuronales del tipo recurrentes (RNN), presenta mejores resultados en el valor de exactitud en la clasificaci ´on; 0.59 bajo el corpus de opini ´on de Yelp 2014.

Singhal y Bhattacharyya (2016) realizaron un an ´alisis de sentimiento en m ´ultiples lenguajes, para ello utilizaron un traductor, el cual traduce cualquier lenguaje al ingl ´es. De esta manera, pueden relacionar cada palabra traducida al ingl ´es, a un vector palabra previamente entrenado; siguiente a esto, alimentan una red neuronal convolucionalCNN con los vectores palabra que re- presenten una opini ´on, en conjunto con vectores palabra los cuales se encuentran etiquetados con su polaridad (si representan una palabra positiva o negativa). Los experimentos fueron realizados empleandoTweets para el caso del lenguaje espa ˜nol. Sus resultados muestran que al entrenar una red neuronal convolucional, aumentando los datos de entrenamiento con palabras con pola- ridades previamente etiquetadas, mejora los valores deF-Score de su clasificador, en contraste con el mismo clasificador al no contemplar este aumento. Para el idioma espa ˜nol, obtuvieron un valor deF-Scorede 0.852, utilizando un total de 1033Tweets(683 positivos y 350 negativos).

Liet al. (2017) utilizan109 vectores palabra extra´ıdas deGoogle news, en conjunto con una red generativa adversaria (GAN). El corpus de opini ´on que utilizan proviene deAmazon, la idea principal es realizar an ´alisis de sentimiento entre dominios distintos, esto es, realizar una clasifica- ci ´on de sentimientos independiente de qu ´e clase de opiniones se traten; para ello utilizaron 1600 documentos de opini ´on de dominios como libros, pel´ıculas, electr ´onicos y art´ıculos de cocina.

Obtienen un valor de exactitud de alrededor del 0.87.

Uysal y Murphey (2017) realizaron una comparaci ´on entre m ´etodos de selecci ´on de carac- ter´ısticas y m ´etodos de aprendizaje profundo (deep learning); al igual se compar ´o la combinaci ´on de cada uno de estos m ´etodos en conjunto con vectores palabra, los experimentos se enfocaron en el an ´alisis de sentimientos a nivel de documento. Se consideraron m ´etodos como ganancia de informaci ´on (IG) (Uysal, 2016), indice Gini (GI) (Shanget al., 2007) y selector de caracter´ısticas distintivas (DFS) (Uysal y Gunal, 2012) as´ı como redes neuronales convolucionales (CNN), red neuronal con memoria a largo y corto plazo (LSTM) y una combinaci ´on de ambas; as´ı como las combinaciones que contemplan vectores palabra.

Los resultados de este estudio (Uysal y Murphey, 2017) muestran que los modelos de apren- dizaje profundo en combinaci ´on con vectores palabra, son los vencedores en tres de cuatro con- juntos de prueba, siendo estos cr´ıticas de cine extra´ıdas deIMDB,Tweets, corpus de cr´ıticas de art´ıculos de m ´ultiples dominios y opiniones deAmazon; en particular obtuvieron un 0.89 de exac- titud en IMDB mediante la combinaci ´on de los dos tipos de redes neuronales en conjunto con vectores palabra. Por otro lado, mediante una combinaci ´on de ganancia de informaci ´on y vectores palabra, obtuvieron la mejor exactitud con un valor cercano al 0.75 en el corpus de tweets. Es interesante notar que la inclusi ´on de vectores palabra en ambos casos, resulta en el factor que permite los mejores valores de exactitud.

La calidad de los vectores palabra se encuentra dada mediante las relaciones sem ´anticas hacia otras palabras, sin embargo, en ocasiones no se cuenta con corpus de texto de dominios espec´ıficos, lo suficientemente grande, esto suele afectar a los vectores palabra resultantes. Re- zaeiniaet al.(2017) proponen un m ´etodo para generar vectores palabra mejorados (IWV), el cual mediante m ´etodos como etiquetado morfosint ´actico y un enfoque basado en el l ´exico, realizaron una mejora en la calidad de estos vectores palabra para la tarea del an ´alisis de sentimiento. Los experimentos se realizaron empleando distintos modelos de aprendizaje profundo. Sus resultados muestran que el m ´etodo propuesto, mejora la calidad de vectores palabra previamente entrena- dos, lo cual se ve reflejado en un aumento en la exactitud al clasificar la polaridad de documentos de opini ´on. En particular, al mejorar vectores previamente entrenados medianteword2vec, se me- jor ´o la exactitud de un 0.794 a un 0.798; de manera similar se muestra una mejora constante en el resto de experimentos realizados.

un corpus de documentos en particular. Lo anterior resulta, de la carencia de benchmarks que especifiquen el nivel de an ´alisis de sentimiento, una medida de calidad as´ı como un conjunto de documentos de prueba en particular. Por lo general los trabajos en el ´area emplean variados corpora de prueba as´ı como distintas m ´etricas de evaluaci ´on (F-Score, exactitud).

Aun bajo condiciones distintas, realizamos una comparaci ´on superficial de los trabajos de la Tabla 13, que comparten corpus de prueba (MuchoCine,TripAdvisor) con los empleados en este trabajo de tesis.

En contraste con el procedimiento propuesto en este trabajo, en particular sobre el corpus de opini ´on de MuchoCine, trabajos como Mart´ın-Valdiviaet al. (2013) y Garc´ıa et al. (2015) realiza- ron una combinaci ´on de clasificadores donde la polaridad de un documento resulta de emplear un sistema de votaci ´on o una arquitectura en cascada, sobre los clasificadores. Ambos traba- jos emplearon representaciones de documentos basadas en conteo, Mart´ın-Valdiviaet al. (2013) utiliz ´o TF-IDF (Term Frequency-Inverse), TF, TO (Term Occurrence) y BTO (Binary Ter Occu- rrences) y Garc´ıaet al.(2015) representaciones como bolsa de palabra, bigramas de etiquetado morfosint ´actico y teor´ıa de la valoraci ´on.

Pese a que en ambos trabajos se realiza una combinaci ´on de clasificadores, en (Mart´ın- Valdiviaet al., 2013) se utiliz ´o la versi ´on en espa ˜nol as´ı como versi ´on traducida de “MuchoCine”, cabe mencionar que ambas en su versi ´on lematizada. Obtuvieron resultados similares en preci- si ´on para ambos corpus de “MuchoCine”, en particular se obtuvo un mejor resultado en la versi ´on en espa ˜nol con una exactitud de 0.88 en contraste con su versi ´on en ingl ´es con 0.8696; en particu- lar este ´ultimo resultado es interesante, ya que la versi ´on en ingl ´es se complement ´o con recursos ling ¨u´ısticos provenientes deSentiWordNet, de manera que esta informaci ´on ling ¨u´ıstica adicional no represent ´o una mejora para el clasificador propuesto.

Aunque Mart´ın-Valdivia et al. (2013) y Garc´ıaet al. (2015), compartieran en cierta medida la arquitectura de los clasificadores propuestos, es interesante notar el uso de la representaci ´on por bolsa de palabra en (Garc´ıaet al., 2015) y TF-IDF en (Mart´ın-Valdivia et al., 2013), ambas representaciones se encuentran altamente relacionadas y resultaron en los mejores resultados obtenidos para cada caso. Esto podr´ıa indicar que la representaci ´on de documentos por conteo conserva de manera conveniente la sem ´antica de las opiniones, en particular de documentos de opini ´on que tienden a ser altamente descriptivos y por ello extensos, como es el caso de “MuchoCine”.

En contraste con nuestro mejor valor de exactitud de 0.5993 para “MuchoCine” el cual obtuvo una precisi ´on de 0.5821, Garc´ıaet al.(2015) logran una precisi ´on de 0.97. Este resultado se obtu- vo del promedio de 10 ejecuciones realizando una validaci ´on cruzada a 10 pliegues. Se utiliz ´o un conjunto de prueba de 525 documentos as´ı como una combinaci ´on de tres distintos m ´etodos para obtener un consenso por votaci ´on. Es importante notar que este valor de precisi ´on es muy superior a otros presentados para documentos en espa ˜nol, incluso con documentos m ´as sencillos como Tweets (Singhal y Bhattacharyya (2016)). Ser´ıa importante reproducir los resultados de Garc´ıa et al.(2015) y verificar que no exista un problema de sobre entrenamiento.

En particular para el corpus de “TripAdvisor”, en Salas-Z ´arate et al. (2017) se observ ´o que a diferencia de Mart´ın-Valdiviaet al.(2013) para“MuchoCine”, el utilizar informaci ´on del tipo ling ¨u´ısti- ca, benefici ´o a la clasificaci ´on de opiniones, obteniendo un valor de exactitud de 0.90. Esto es in- teresante, ya que nuestro mejor valor de exactitud fue de 0.826, esto empleando solo informaci ´on sem ´antica, por lo que contemplar el uso de informaci ´on ling ¨u´ıstica podr´ıa resultar beneficioso para el procedimiento propuesto en este trabajo.

De manera similar, los resultados parciales obtenidos del entrenamiento en la secci ´on 4.5, as´ı como los resultados de prueba con documentos desconocidos mostrados en la secci ´on A.3; muestra que la selecci ´on de componentes deword2vec, puede beneficiar al procedimiento pro- puesto en este trabajo.

En resumen, si bien los trabajos del estado del arte reportan, en su mayor´ıa, resultados de entre el 0.80 y 0.9 de precisi ´on, nuestros resultados para “MuchoCine” se presentan alejados de este intervalo. Sin embargo, los resultados para “TripAdvisor” s´ı muestran ser competitivos con los del estado del arte. La diferencia observada entre ambos corpora se conjetura que se debe al car ´acter descriptivo de los documentos de “MuchoCine”, lo cual hace dif´ıcil la tarea de detectar