Este tipo de algoritmos que se consideran una variación del aprendizaje supervisado, puede adoptar una de las siguientes formas en la etapa de entrenamiento:
a) Sólo una parte de los datos se etiqueta.
b) Utiliza tanto datos etiquetados como no etiquetados para el entrenamiento. c) Los datos de entrenamiento se obtienen de un proceso automático (en lugar de
manual) con datos que sin estar etiquetados ya tienen asociada una clase o un hecho. En esta forma de entrenamiento se encuentra la transferencia de aprendizaje (transfer learning).
En relación al primer caso, específicamente para el análisis de sentimientos, algunos enfoques basados en léxico pueden considerarse como aprendizaje semisupervisado considerando que los términos contenidos en el léxico tienen asignada una calificación (es decir una etiqueta) que es utilizada para clasificar nuevos datos (Keshtkar & Inkpen, 2013). Cuando las etiquetas de los léxicos, asignadas manualmente en la mayoría de los casos, son asignadas en función de las características de una parte del corpus, esto equivaldría a etiquetar parcialmente los datos de entrenamiento. (Keshtkar & Inkpen, 2013) utilizaron un enfoque basado en corpus (léxico) con un algoritmo de apalancamiento (bootstrapping). La idea principal del algoritmo fue basarse en el contexto y características del léxico para encontrar paráfrasis y extraerlas para encontrar términos que reflejasen emociones. Para esto tuvieron que partir de un pequeño número de palabras iniciales (semillas) extraidas de WordNet Affect[25]. Utilizando un conjunto de blogs etiquetados manualmente, su algoritmo extrajo paráfrasis para aprender algunos patrones de extracción para 6 clases de emociones. Utilizando tanto las palabras semilla como las aprendidas en el apalancamiento llevaron a cabo la clasificación de
49
sentimientos (emociones) de otros textos y blogs. Su algoritmo mostró buen desempeño en su conjunto de datos.
En el segundo caso, que se utiliza cuando es necesario entrenar al algoritmo con una gran cantidad de ejemplos etiquetados, se etiqueta sólo una parte y ésta se utiliza para calcular las etiquetas de los datos de entrenamiento restantes, la cual normalmente es mucho mayor que la porción etiquetada. Esto se logra generalmente aprovechando las correlaciones entre características de datos etiquetados y no etiquetados y haciendo inferencias sobre cuáles deberán ser las etiquetas de los datos no etiquetados. Al final el algoritmo se ejecuta de igual forma que uno de aprendizaje supervisado. (Wiegand & Klakow, 2010) presentan este enfoque para clasificar críticas de usuarios sobre películas, extraídas de Internet Movie database (IMDB) y sobre otros productos, extraídas de Rate-it-All.com. La peculiaridad de esta propuesta es el uso de los resultados de un clasificador basado en reglas para el entrenamiento de otro clasificador más robusto de aprendizaje supervisado, al que los autores denominan de autoaprendizaje. Esta propuesta ilustra nuevamente los intentos de los investigadores por evitar el etiquetado manual requerido en un algoritmo de aprendizaje automático que normalmente es una tarea exhaustiva. Los autores evaluaron la eficiencia alcanzando una exactitud (accuracy) entre 77% y 83%.
El tercer caso, en que los datos se entrenan mediante un proceso automático previo a la propia clasificación, presenta la ventaja de no ser necesario realizar ningún tipo de etiquetado manual (ni siquiera parcial). (Bollen, Mao, & Zeng, 2011) y (Makrehchi, Shah, & Liao, 2013) realizaron experimentos con mensajes de Twitter asociados a determinadas acciones de la bolsa de valores, entrenando de forma automática a sus algoritmos asociando aumentos en los precios de las acciones con sentimientos positivos y disminuciones con sentimientos negativos. (Mishne, 2005) Es otro ejemplo de este tercer caso del aprendizaje semisupervisado. Este autor utilizó mensajes de blogs obtenidos de LiveJournal.com[57], ejemplo este en el que hay dos particularidades interesantes que vale la pena resaltar: a) Utiliza un algoritmo de aprendizaje supervisado (máquinas de vectores de soporte) como semisupervisado, es decir, en lugar de etiquetar manualmente los datos de entrenamiento, utiliza etiquetas que los mismos usuarios introducen al momento de publicar su comentario (post); b) utiliza el enfoque no supervisado para descubrir datos. Concretamente identificando aquellas palabras
50
(unigramas) o frases (bigramas y trigramas) más comúnmente asociadas a distintos estados del humor.
Otra investigación que utiliza datos no etiquetados por humanos como conjunto de entrenamiento es (Dave, Lawrence, & Pennock, 2003). Esta propuesta utiliza para sus experimentos críticas a productos descargadas de dos sitios: C|net[51] y Amazon[50]. Las críticas a productos obtenidas de C|net se obtienen con un dato binario adicional que indica satisfacción (pulgar hacia arriba) o insatisfacción (pulgar hacia abajo). Las críticas a productos de Amazon son descargadas con una calificación escalar del 1 al 5 (desde “muy satisfecho” hasta “muy insatisfecho”). Su algoritmo es entrenado para encontrar patrones en aquellas críticas que expresan satisfacción ya sea de forma binaria (pulgar arriba o abajo) o escalar (calificación del 1 al 2) y consideran esos patrones como indicadores de opiniones positivas y los patrones en críticas que indican insatisfacción (o calificación del 4 al 5) son asociadas con opiniones negativas. El resto del algoritmo se comporta como un algoritmo supervisado que utiliza principalmente frases (concretamente trigramas) para comparar las críticas del conjunto de datos de prueba con los patrones aprendidos. De esta forma se clasifica a las críticas como positivas o negativas. La eficiencia (exactitud) más alta alcanzada en su experimento fue del 85.3%
Otra propuesta es la de (Goldberg & Zhu, 2006) quienes utilizaron un conjunto de críticas a películas como datos de entrenamiento. Sólo un parte de las críticas estaban etiquetadas, es decir, identificadas como positivas o negativas. Lo que estos investigadores propusieron fue utilizar tanto los datos etiquetados como los no etiquetados como datos de entrenamiento. Para lograr esto utilizaron medidas de similitud, de esta forma, a los datos no etiquetados se les asignaron etiquetas de acuerdo con la similitud que tuvieron con los datos etiquetados. Una de sus conclusiones más importante es que cuando sólo una parte de los datos, que deberían ser usados para el entrenamiento está etiquetada, resulta más eficiente usarlos todos como etiquetados que sólo usar la porción etiquetada.
Los investigadores (Yu, Wu, Chang, & Chu, 2013) presentaron una propuesta a la que denominaron modelo de entropía contextual (contextual entropy model). Estos autores proponen el uso de la presencia y la intensidad de palabras de emoción como características para clasificar el sentimiento de noticias del mercado de valores. Para
51
identificar esas palabras, su modelo de entropía contextual expande un grupo de palabras iniciales (semillas) utilizando un pequeño corpus de noticias del mercado de valores etiquetado manualmente con sentimientos. Para expandir las palabras iniciales utiliza una variación del método conocido como punto de información mutua (PMI) para medir la similitud entre estas semillas y otras del corpus etiquetado comparando su distribución contextual. Con el grupo aumentado de palabras realizan la clasificación de nuevas noticias sobre el mercado de valores. Sus resultados muestran una mejora sobre el tradicional punto de información mutua al expandir las palabras iniciales ya que además de considerar la probabilidad de coocurrencia de dos palabras consideran la distribución contextual de éstas. Además sus resultados muestran que al descubrir más palabras de emoción y su correspondiente intensidad mejoran el desempeño de la clasificación de sentimientos.
De la misma forma en que autores como (Dave, Lawrence, & Pennock, 2003) utilizaron una calificación otorgada por los mismos usuarios en forma binaria (pulgar arriba- pulgar abajo) y escalar (del 1 al 5) como datos de entrenamiento, otros investigadores han aprovechado algunas características particulares de determinados medios sociales, tales como la calificación global de los restaurantes (Ganu, Elhadad, & Marian, 2009) o los emoticonos en grupos de noticias (Read, 2005) o en Twitter (Go, Bhayani, & Huang, 2009).
La propuesta de (Read, 2005) se basa en la hipótesis de que los emoticonos son características en los textos con opinión independientes de dominio, del tópico y del tiempo. Para demostrar que la clasificación de textos en base a la orientación semántica del sentimiento puede ser dependiente del dominio, del tópico y del tiempo utilizando métodos de aprendizaje supervisado, este autor realizó tres experimentos utilizando datos distintos para el entrenamiento a los usados para las pruebas. Los algoritmos utilizados fueron naive Bayes y máquinas de vectores de soporte. En la primera prueba, entrenaron estos algoritmos con datos de dos tópicos distintos (finanzas / fusiones y adquisiciones), dos dominios distintos (películas / economía) y críticas del mismo dominio (películas) pero de años distintos. Los resultados de esos experimentos demostraron que cuando los datos de entrenamiento pertenecen a un dominio, tópico o tiempo distintos, la eficiencia de los algoritmos se ve afectada negativamente. Al considerar que los emoticonos son metadatos independientes de estas tres variables, realizaron experimentos entrenando ambos algoritmos con emoticonos. La eficiencia de
52
su propuesta fue aceptable aunque no sobresaliente (70% exactitud) pero sentó un precedente en las opciones de entrenamiento para posteriores investigaciones.
(Go, Bhayani, & Huang, 2009) también utilizaron los emoticonos como referencia para entrenamiento de sus algoritmos de aprendizaje supervisado. Los algoritmos utilizados fueron naive Bayes, máquinas de vectores de soporte y entropía máxima. Los emoticonos indicadores de positividad fueron las sonrisas, es decir “:)” (smiley) y sus variaciones, mientras que los indicadores de negatividad fueron los ceños fruncido “:(” (frown) y sus variaciones. Como extractores de características para el entrenamiento utilizaron unigramas, bigramas, unigramas más bigramas y unigramas más etiquetas POS (part-of-speech). Durante la fase de entrenamiento utilizaron como datos etiquetados aquellos tweets con emoticonos smiley (positivos) y con emoticonos frown
(negativos). Esta propuesta alcanzó una exactitud máxima de 82.2% en la evaluación. Un enfoque similar que utiliza emoticonos para entrenar el algoritmo de naive Bayes es el de (Pak & Paroubek, 2010) quienes experimentaron con unigramas, bigramas y trigramas encontraron, en contraposición con (Pang, Lee, & Vaithyanathan, 2002) que los bigramas funcionaron mejor que los unigramas. Una aportación interesante de esta investigación fue la identificación de etiquetas POS que resultan más frecuentes en tweet subjetivos y tweets objetivos.