• No results found

6.7 Language proficiency, economic activity, and migration policy

6.7.1 Accessing language classes

La clasificación describe el problema de identificar a qué clase de un conjunto de clases pertenece una nueva instancia de datos, sobre la base de un conjunto de datos de entrenamiento que contiene instancias cuya pertenencia a clases ya es conocida (Tang et al, 2014c). Casi todas las técnicas de clasificación conocidas, como árboles de decisión, reglas de decisión, métodos bayesianos, k-NN, SVM y redes neu- ronales, entre otras, han sido efectivamente utilizadas para la clasificación de texto (Sebastiani, 2002). En (Rosa and Ellen, 2009; Rosa et al, 2011; Miah et al, 2011; Cai et al, 2010; Romero et al, 2013; Mat- hew and Issac, 2011), los autores estudiaron cómo se comportan las técnicas de clasificación que son tradicionalmente aplicadas a textos largos cuando son aplicadas a textos cortos. En todos los casos, los autores reforzaron la hipótesis de que las técnicas tradicionales de clasificación de textos largos también pueden aplicarse a textos cortos con resultados prometedores. Particularmente, Rosa and Ellen (2009) concluyeron que k-NN y SVM son útiles para clasificar textos cortos informales, mientras que Mathew

and Issac (2011) afirmaron que los métodos bayesianos ySequential Minimal Optimisation(SMO, una

optimización de SMV) están entre los algoritmos de mejor rendimiento para la clasificación de mensajes móviles.

2.5. TÉCNICAS DE APRENDIZAJE SOBRE TEXTOS CORTOS

Por otra parte, diversos trabajos (Cai et al, 2010; Su-zhi and Pei-feng, 2011; Faguo et al, 2010; Nis- hida et al, 2011; Romero et al, 2013; Ramírez de la Rosa et al, 2013) se centraron en el diseño de nuevas técnicas de clasificación específicas para textos cortos. Su-zhi and Pei-feng (2011) propusieron una téc- nica de clasificación híbrida diseñada para adoptar SVM o k-NN según las distribuciones específicas de instancias en el espacio. Si la distancia de una nueva instancia al hiperplano de separación es ma- yor que un umbral predefinido, se supone que SVM es más adecuado para clasificar con precisión la nueva instancia. De lo contrario, SVM solo calcularía la distancia hasta un punto representativo, lo que podría conducir a clasificaciones erróneas. En estos casos, k-NN mide la distancia a todos los puntos representativos (es decir, los vectores de soporte) por medio de la distancia del coseno.

Nishida et al (2011) propusieron una técnica basada en la compresión de datos para la clasificación binaria de textos cortos. La técnica es independiente del lenguaje y capaz de aprovechar efectivamente el contexto de los términos, ya que analiza la compresibilidad de los textos con respecto a los ejemplos positivos y negativos, en un primer paso, y luego calcula la puntuación para la clasificación. La compre- sibilidad de los textos fue evaluada por el algoritmo Deflate (Deutsch, 1996), utilizado también por gzip. Debido a que Deflate no es un algoritmo basado en caracteres, los textos del mismo lenguaje pueden tener tasas de compresión similares. Por lo tanto, el último byte de cada carácter no ASCII se considera que reduce la tasa de variación de compresión de los diferentes idiomas. El algoritmo de aprendizaje mantiene modelos para los ejemplos positivos y negativos, concatenando los ejemplos más recientes. Luego, el enfoque clasifica un texto en la clase positiva si el valor de compresibilidad es inferior a un umbral predefinido. La utilización de umbrales bajos mejoran la precisión de la clasificación, mientras

que los umbrales altos mejoran su sensibilidad (en inglés,recall). El valor de compresibilidad se defi-

nió como la relación entre un indicador de compresibilidad de texto si pertenece a la clase positiva o negativa. Aunque los autores seleccionaron el algoritmo Deflate, cualquier algoritmo de compresión de datos podría ser usado. Sin embargo, la generalización de los resultados no puede ser garantizada ya que podría depender de las características intrínsecas de cada algoritmo de compresión.

Los textos cortos no solo dificultan las tareas de clasificación debido a la reducción de las frecuencias de palabras, sino también debido a que los tópicos que los mismos abordan cambian de forma constan- te, por lo que regularmente requieren nuevos datos de entrenamiento. En este contexto, Ramírez de la Rosa et al (2013) propusieron una técnica de clasificación de consenso entre vecinos basada en la idea de que documentos similares podrían pertenecer a la misma categoría. Los textos se clasifican consi- derando su propia información y la información de la categoría asignada a otros textos similares en la misma colección de entrenamiento. Esta técnica difiere de otras en que no modifica el conjunto de en- trenamiento. En su lugar, utiliza dicha información para respaldar la decisión de la clasificación tomada por un clasificador débil. La técnica consiste en dos pasos. El primero, conocido como entrenamiento, entrena el clasificador utilizando un conjunto de documentos de los cuales se conoce la clase. Cualquier algoritmo de aprendizaje supervisado puede ser utilizado en este paso. El segundo, conocido como clasi- ficación, aplica k-NN y asigna el nuevo texto a una categoría. Los autores optaron por aplicar una versión modificada del clasificador basado en prototipos, que en el entrenamiento construye una única instan- cia representativa, es decir, el prototipo, para cada categoría. En la etapa de clasificación, se calculan las puntuaciones de similitud para cada documento a clasificar y prototipo de clase. A continuación, se calcula una puntuación de similitud combinada para cada documento como la combinación lineal de la puntuación de similitud para el documento con el prototipo de clase y la puntuación de similitud de los documentos con el mismo prototipo de clase. Finalmente, el documento se asigna a la clase con la mayor puntuación de similitud combinado. La contribución de cada vecino a la combinación lineal de similitu- des es inversamente proporcional al documento de interés (como en el k-NN) con la diferencia principal de que los vecinos fueron considerados como los otros documentos sin etiquetar y no los documentos de entrenamiento. Los resultados mostraron que cuanto menor es el tamaño del conjunto de entrenamiento, mayores fueron las mejoras, lo que podría indicar que el enfoque propuesto podría abordar eficazmente los problemas asociados con la clasificación de textos cortos con pequeños conjuntos de entrenamiento. En la misma línea de investigación, Cai et al (2010) propusieron aprovechar la existencia de docu- mentos sin etiquetar para suplir la falta de textos etiquetados. La técnica semi-supervisada se basó en

2.5. TÉCNICAS DE APRENDIZAJE SOBRE TEXTOS CORTOS

Expectation-Maximisation(EM) yRandom Subspace(RS-EM). Utilizó textos no etiquetados para resol-

ver el problema de escasez de textos cortos a partir de la combinación de la teoría de la discriminación estocástica con el algoritmo de EM. La técnica elige sub-espacios aleatorios dentro del espacio de ca-

racterísticas, entrena un clasificador deNBen cada sub-espacio y luego usa el conjunto de clasificadores

EM para ampliar el conjunto de textos de entrenamiento. En cada iteración, los textos sin etiquetar son clasificados y se añaden al proceso de entrenamiento. El proceso itera hasta que las predicciones de clase

realizadas porNBno cambian.

Finalmente, varios trabajos (Kim et al, 2014; Yuan et al, 2012) se enfocaron en modificar clasifica- dores tradicionales para mejorar su rendimiento en textos cortos al definir nuevas funciones de simili- tud (Kim et al, 2014) o modificar los modelos probabilísticos subyacentes (Yuan et al, 2012). Yuan et al

(2012) analizaron las mejoras de rendimiento de NBen la clasificación de textos cortos considerando

cuatro técnicas de suavizado. Dichas técnicas modifican el cálculo de las probabilidades de clase. En

particular, los autores aplicaron las técnicas de suavizado Jelinek-Mercer, Dirichlet,Absolute Discoun-

tingyTwo-Stage(Zhai and Lafferty, 2004). Los resultados mostraron que la aplicación de estas técnicas

aNBpuede mejorar su rendimiento, logrando resultados similares a los de SVM, pero con un enfoque

más simple y eficiente.

Kim et al (2014) propusieron una función de semántica independiente del lenguaje (LIS) basada en características sintácticas y semánticas de los textos, que también era independiente de cualquier etiqueta POS que pudieran ser asignadas a las palabras y bases de datos léxicas. LIS comprende tres pasos: extracción de patrones, anotación semántica y cálculo de similitudes. Los patrones sintácticos se definen como un conjunto de palabras que aparecen en textos basados en la información sintáctica de un lenguaje específico. En particular, los autores optaron por extraer patrones basados en árboles de análisis sintáctico, debido a que proporcionan información sobre la ocurrencia y la secuencia de palabras. Luego, se agregó información semántica en cada patrón extraído considerando tres niveles semánticos: palabra (palabras que frecuentemente co-ocurren dentro de un patrón fueron usadas para definir su significado en anotaciones de nivel de palabra), documento (el significado de cada patrón se expandió con las palabras que aparecen en documentos similares considerando la anotación de nivel de documento) y categoría (los patrones se asociaron a una categoría basada en su similitud). Finalmente, LIS es integrado con algoritmos de clasificación.