• No results found

The Model Framework and the Main Characteristics of the Model

Chapter 3 The Design of Deposit Contracts, Liquidity Provision, and Investment Portfolios

3.4 The Environment

3.4.1 The Model Framework and the Main Characteristics of the Model

La versión .NET de Lucene cuenta con varias utilidades para ejecutar las diferentes tareas de recuperación de información como se presentó en la introducción de esta sección. Entre las tareas que se pueden desarrollar con estas utilidades se encuentran el análisis (tareas como análisis léxico, filtros, convertidores de texto a minúsculas o mayúsculas, entre otros), la indexación, el almacenamiento, la consulta, entre otras.

Para efectos de este trabajo se utiliza el tokenizador estándar de Lucene (en su versión 2.9.4) el cual tiene como principal objetivo la lectura de los datos (como consultas y documentos) y dividirlos en tokens (unidades pequeñas con significado, en su mayoría son palabras) y organizar estos tokens. En la Figura 18, se presenta la implementación de Lucene para .NET, donde se pueden apreciar las diferentes utilidades.

Figura 18. Librería Lucene para .NET. Fuente: Elaboración propia.

La versión nasa del tokenizador estándar de Lucene incluye las siguientes mejoras: 1. Eliminar las tildes (’) de las vocales orales y nasales interruptas como elemento

separador de palabras, por ejemplo:u’jweçtene’ta, que es separada incorrectamente: /u/ jweçtene /ta/, para lo cual se procedió de la siguiente forma:

 Se identificaron diferentes tipos de tilde en la forma de escribir documentos en nasa yuwe como son:

´

,

`

,

,

, es decir, que no solo se podrían encontrar en los documentos de la colección sino en las consultas que haga el usuario, por tanto,

45

fue necesario unificar estos tipos de tildes por una sola (’) antes de iniciar el procesamiento de textos y consultas en el tokenizador nasa.

 Una vez realizada la unificación de todas las tildes se identificó en el tokenizador de Lucene los caracteres utilizados para separar palabras como espacios en blanco, y signos de puntuación entre otros, y así eliminar la tilde seleccionada como elemento separador de palabras en un texto u oración.

2. Mantener la tilde (’) de las vocales orales y nasales interruptas al final de una palabra, por ejemplo: thegu’, que termina en la vocal oral interrupta u’, pierde el carácter de tilde (’) al ser tokenizada, para lo cual se procedió de la misma manera que en el ítem anterior, es decir, se eliminaron los diferentes tipos de tildes como elemento separador de tokens, haciendo una unificación de estas previamente.

3. Evitar el cambio de las vocales nasales por vocales orales y la división de la palabra, lo cual fue una situación extraña, dado que no con todos los documentos se presentaba esta situación, por tanto, se procedió así.

 Identificar porqué se presentaba esta situación en unas palabras y en otras no, como el caso de la palabra nasa mjĩsa al tokenizarla quedaba dividida en dos tokens (mji sa), pero en el primer token la i nasal era reemplazada por la i oral, de tal forma, que fue complicado identificar cuál era el error dado que las palabras eran iguales en apariencia. Finalmente, se pudo identificar que las palabras eran diferentes porque la vocal nasal estaba divida en dos, como se muestra en la parte izquierda de la Figura 19, es decir, al ubicar el cursor sobre la letra se aprecia que el carácter está formado por dos partes, pero la vocal de la derecha es un solo carácter, y en apariencia eran iguales. Por tanto, era necesario identificar si era un error en la escritura o una situación que se podía presentar en la escritura normal de la lengua nasa yuwe.

Figura 19. Diferencias en la escritura de la vocal nasal ẽ. Fuente: Archivo nasa revisado en Notepad++

 Teniendo en cuenta lo anterior, fue necesario revisar si era un error en la digitalización de los textos, por ejemplo, con el OCR al escanear los documentos, al aplicar el tipo de fuente (como Charis Sil), al utilizar el software de escritura de nasa yuwe [77], obteniendo que con estos métodos de escritura no se presentaba esta situación con las vocales nasales. Seguidamente, se revisaron las distintas formas en que los profesores nasa pueden escribir textos, una de las formas que generó este error en los documentos y al utilizar una herramienta de inserción como

46

por ejemplo, la presentada en la página del alfabeto fonético internacional25, por lo tanto, esta situación fue un problema a considerar en la adaptación del tokenizador para nasa, dado que si bien se podrían corregir los documentos de la colección que presentan esta situación, esta situación se podría presentar al momento de introducir una consulta.

 La situación se corrigió al incluir un paso adicional en el procesamiento de textos nasa que buscó unificar tanto los documentos como las consultas antes de iniciar el procesamiento.

4. Adicionalmente, se identificaron algunas palabras que varían en la escritura por ejemplo: Khutx, Kuthx y Kutxh utilizadas para escribir maíz, a’te y a’te’, utilizadas para escribir (época o luna) dependiendo de la variante del idioma, lo cual es un problema dado que si el usuario para escribir maíz lo escribe de manera diferente a como esta en los documentos de la colección, el desempeño del sistema se ve muy afectado, porque no encontraría documentos relevantes relacionados con la consulta. Por esta razón y a pesar, de que esta situación no es parte de los objetivos de este proyecto, se decidió unificar estas palabras en el tokenizador adaptado para nasa yuwe.

A continuación en la Figura 20, se presenta una imagen que esquematiza a grosso modo la forma en que se organizó el tokenizador nasa.

Figura 20. Esquema tokenizador nasa. Fuente: Elaboración propia.

Una vez realizada la adaptación del tokenizador estándar de Lucene para realizar el procesamiento de documentos nasa, se presentan los resultados de lo que en delante se denominará el tokenizador nasa (NT), para revisar su desempeño se utilizan los mismos escenarios y casos descritos al inicio de este capítulo.

47