Después de tener los datos del documento, usualmente se obtiene un corpus de una alta dimensionalidad, se requiere determinar qué datos se analizan y cuáles no. Por ello se debe aplicar diferentes métodos de filtrado que permitan simplificar el análisis posterior y
determinar datos que puedan ser pertinentes.
El análisis de contenido involucra una reducción inicial del corpus, tarea que debe ser parte del entrenamiento del modelo y se deben establecer las reglas para que van a ser aplicadas a los documentos del sitio, estas implican la Normalización, Stemming, Lemming y otros métodos.
Normalización
La eficacia de un análisis depende de la calidad de los datos. Según Gorakala & Usuelli, 2015, en general cada preprocesamiento de datos implica la limpieza de los datos,
transformaciones, identificación de valores faltantes y cómo estos van a ser tratados. Para este preprocesamiento se pueden usar diversas técnicas de transformación que se aplica a cada documento para normalizar los datos
El primer paso de limpieza implica eliminar cualquier etiqueta HTML, URL, diéresis, caracteres especiales como @ o #, y otros que tienen que ser anexados al proceso de manera supervisada identificando cuales de ellos no aportan significativamente al análisis y al proceso como tal.
Se eliminan caracteres especiales y símbolos ! ? # $ % & ’ ( ) * + , - . / : ; < = > ? @ [ \ ] ˆ _ ‘ { | } ∼
Posterior a ello se deben convertir las palabras a tokens o componente léxico, estos se conforman en términos. Este procedimiento se realiza sin problema usando librerías de
arrays nativas de cualquier lenguaje de programación. Se codifica en utf8 para poder
compartirse en protocolos como JSON o XML y se convierte a minúsculas.
Se eliminan usando un diccionario de datos palabras consideradas como stop words tales como, artículos, adverbios, preposiciones, etc. Palabras que carecen de significado
semántico o que son consideradas como innecesarias para el análisis y que pueden generar ruido a los resultados. Se identifican también aquí, palabras de la lista negra, tales como
Sistema no supervisado para la recomendación de contenidos educativos basado en un sistema híbrido
33
expresiones vulgares, modismos ofensivos u de otro carácter; usualmente estas
supervisadas por editores.
Ilustración 10 - Ejemplo de "stop words". (Sanchez, B. 2019)
Stemming
El siguiente paso aplicar Stemming1, o una normalización de las palabras a su raíz eliminado posibles desambiguaciones semánticas. Stemming elimina los pronombres añadidos (me, se, sela, selo, selas, selos, la, le, lo, las, les, los, nos); gerundios y sufijos (iéndo, ándo, ár, ér, ír, ya, ye, yan, yen, yeron yendo, etc) del corpus del idioma español (28390 palabras).
El uso del Stemming puede aumentar la cantidad de datos obtenidos puesto que reduce la cantidad de términos a consultar. La decisión de usar Stemming o Lemming (que se verá a continuación) depende de la cantidad de datos en bruto que se obtengan del tokenizer. Por supuesto Stemming puede generar algunas divergencias semánticas, ya que para el
sistema es igual el termino Aplicado, que el termino aplicación o el termino aplicará; Lo cual limita semánticamente el análisis de tópicos. (ver ilustración 7)
1 Puede usarse para el Stemming la librería http://stemmer-es.sourceforge.net/ de Paolo
Sistema no supervisado para la recomendación de contenidos educativos basado en un sistema híbrido
34
Lemming o Lematización
Lemming o Lematización es un proceso que analiza del corpus lingüístico el Lema o unidad
semántica con significado (palabra o término en este caso). Ese lema es la reducción principal de esa palabra, es la representante lingüística de las conjugaciones o flexiones lingüísticas del término. El resultado del proceso es la definición de las características esenciales de esa palabra, raíz, lema, significado, estructura y otros.
Para poder utilizar el lemming es necesario usar librerías tipo WordNet2 que permiten transformar términos en su raíz semántica. Wordnet es una base de datos léxica la cual
2 Wordnet en su versión en español https://adimen.si.ehu.es/web/MCR es suministrada por la
Universidad Politécnica de Cataluña , hace parte del proyecto de EuroWordNet estructurado de manera similar que the American wordnet for English (Princeton University, 2010)
Aplaza aplaz Aplazada aplaz Aplazamiento aplaz Aplazó aplaz Aplica aplic Aplicables aplic Aplicación aplic Aplicaciones aplic Aplicada aplic aplicado aplic aplicados aplic aplican aplic aplicar aplic aplicara aplic aplicará aplic aplicáramos aplic aplicarán aplic aplicáremos aplic aplicarla aplic aplicarle aplic aplicarlos aplic aplicaron aplic aplicarse aplic aplico aplic aplicó aplic
agrupa conjuntos de sinónimos llamados synsets, los cuales permiten diferenciar las relaciones
semánticas entre los conjuntos de sinónimos. (ver ilustración 8).
Ilustración 12 - Ejemplo Lemming o Lematización. (Sánchez, B. 2019.)
Frecuencias
Dentro del proceso de filtrado aparecen tres tipologías de términos, las del alta, media y baja frecuencia, usualmente las palabras de alta frecuencia aportan muy poco a la
caracterización del documento por ser palabras comunes que se repiten en casi todos los documentos impidiendo la diferenciación, las palabras de muy baja frecuencia usualmente aumenta la dimensionalidad del corpus; son las palabras de media frecuencia las que se caracterizan como palabras claves o representativas.
Por ello es necesario eliminar tanto los picos como la cola de palabras muy específicas para continuar con el siguiente paso que es del modelado de datos.