Minima and maxima of convex functions - Convex function, their extensions and extremal structur

Después de tener los datos del documento, usualmente se obtiene un corpus de una alta dimensionalidad, se requiere determinar qué datos se analizan y cuáles no. Por ello se debe aplicar diferentes métodos de filtrado que permitan simplificar el análisis posterior y

determinar datos que puedan ser pertinentes.

El análisis de contenido involucra una reducción inicial del corpus, tarea que debe ser parte del entrenamiento del modelo y se deben establecer las reglas para que van a ser aplicadas a los documentos del sitio, estas implican la Normalización, Stemming, Lemming y otros métodos.

Normalización

La eficacia de un análisis depende de la calidad de los datos. Según Gorakala & Usuelli, 2015, en general cada preprocesamiento de datos implica la limpieza de los datos,

transformaciones, identificación de valores faltantes y cómo estos van a ser tratados. Para este preprocesamiento se pueden usar diversas técnicas de transformación que se aplica a cada documento para normalizar los datos

El primer paso de limpieza implica eliminar cualquier etiqueta HTML, URL, diéresis, caracteres especiales como @ o #, y otros que tienen que ser anexados al proceso de manera supervisada identificando cuales de ellos no aportan significativamente al análisis y al proceso como tal.

Se eliminan caracteres especiales y símbolos ! ? # $ % & ’ ( ) * + , - . / : ; < = > ? @ [ \ ] ˆ _ ‘ { | } ∼

Posterior a ello se deben convertir las palabras a tokens o componente léxico, estos se conforman en términos. Este procedimiento se realiza sin problema usando librerías de

arrays nativas de cualquier lenguaje de programación. Se codifica en utf8 para poder

compartirse en protocolos como JSON o XML y se convierte a minúsculas.

Se eliminan usando un diccionario de datos palabras consideradas como stop words tales como, artículos, adverbios, preposiciones, etc. Palabras que carecen de significado

semántico o que son consideradas como innecesarias para el análisis y que pueden generar ruido a los resultados. Se identifican también aquí, palabras de la lista negra, tales como

Sistema no supervisado para la recomendación de contenidos educativos basado en un sistema híbrido

expresiones vulgares, modismos ofensivos u de otro carácter; usualmente estas

supervisadas por editores.

Ilustración 10 - Ejemplo de "stop words". (Sanchez, B. 2019)

Stemming

El siguiente paso aplicar Stemming1_{, o una normalización de las palabras a su raíz}_eliminado posibles desambiguaciones semánticas. Stemming elimina los pronombres añadidos (me, se, sela, selo, selas, selos, la, le, lo, las, les, los, nos); gerundios y sufijos (iéndo, ándo, ár, ér, ír, ya, ye, yan, yen, yeron yendo, etc) del corpus del idioma español (28390 palabras).

El uso del Stemming puede aumentar la cantidad de datos obtenidos puesto que reduce la cantidad de términos a consultar. La decisión de usar Stemming o Lemming (que se verá a continuación) depende de la cantidad de datos en bruto que se obtengan del tokenizer. Por supuesto Stemming puede generar algunas divergencias semánticas, ya que para el

sistema es igual el termino Aplicado, que el termino aplicación o el termino aplicará; Lo cual limita semánticamente el análisis de tópicos. (ver ilustración 7)

1_{Puede usarse para el Stemming la librería http://stemmer-es.sourceforge.net/ de Paolo}

Sistema no supervisado para la recomendación de contenidos educativos basado en un sistema híbrido

Lemming o Lematización

Lemming o Lematización es un proceso que analiza del corpus lingüístico el Lema o unidad

semántica con significado (palabra o término en este caso). Ese lema es la reducción principal de esa palabra, es la representante lingüística de las conjugaciones o flexiones lingüísticas del término. El resultado del proceso es la definición de las características esenciales de esa palabra, raíz, lema, significado, estructura y otros.

Para poder utilizar el lemming es necesario usar librerías tipo WordNet2_{que permiten} transformar términos en su raíz semántica. Wordnet es una base de datos léxica la cual

2_{Wordnet en su versión en español https://adimen.si.ehu.es/web/MCR es suministrada por la}

Universidad Politécnica de Cataluña , hace parte del proyecto de EuroWordNet estructurado de manera similar que the American wordnet for English (Princeton University, 2010)

Aplaza aplaz Aplazada aplaz Aplazamiento aplaz Aplazó aplaz Aplica aplic Aplicables aplic Aplicación aplic Aplicaciones aplic Aplicada aplic aplicado aplic aplicados aplic aplican aplic aplicar aplic aplicara aplic aplicará aplic aplicáramos aplic aplicarán aplic aplicáremos aplic aplicarla aplic aplicarle aplic aplicarlos aplic aplicaron aplic aplicarse aplic aplico aplic aplicó aplic

agrupa conjuntos de sinónimos llamados synsets, los cuales permiten diferenciar las relaciones

semánticas entre los conjuntos de sinónimos. (ver ilustración 8).

Ilustración 12 - Ejemplo Lemming o Lematización. (Sánchez, B. 2019.)

Frecuencias

Dentro del proceso de filtrado aparecen tres tipologías de términos, las del alta, media y baja frecuencia, usualmente las palabras de alta frecuencia aportan muy poco a la

caracterización del documento por ser palabras comunes que se repiten en casi todos los documentos impidiendo la diferenciación, las palabras de muy baja frecuencia usualmente aumenta la dimensionalidad del corpus; son las palabras de media frecuencia las que se caracterizan como palabras claves o representativas.

Por ello es necesario eliminar tanto los picos como la cola de palabras muy específicas para continuar con el siguiente paso que es del modelado de datos.

In document Convex function, their extensions and extremal structure of their epigraphs (Page 81-91)