• No results found

Pricing Under the Replicating Portfolio Method

2.5 Pricing European Call Options in BS

2.5.2 Pricing Under the Replicating Portfolio Method

Una vez planteados los pre-procesamientos y trasformaciones anteriormente detallados, se procedió a la implementación de una herramienta de clasificación de argumentos.

Como resultado del KDD aplicado se generó una herramienta, de la que se obtienen dos salidas, dependiendo de qué es lo que se pretende obtener. En primera instancia se debe construir el modelo, generado a partir del entrenamiento y utilizado posteriormente para la clasificación. Por otro lado, a partir del modelo generado previamente, se pretende determinar si una sentencia es o no un argumento. Para esto se debe realizar el mismo pre-procesado y transformaciones que el utilizado al momento de generar el modelo. Por

Figura 22. Fragmento de archivo de configuración del morfo para etiqueta diferenciada.

Figura 23. Fragmento de archivo de entrenamiento para etiqueta diferenciada.

61

este motivo, estas etapas son comunes para ambos procesos, característica que se puede ver claramente en la siguiente imagen.

La herramienta resultante consta de 2 sub-herramientas. Una es utilizada para la generación del modelo y la segunda es la encargada de la detección y clasificación de los argumentos candidatos.

Para la generación del modelo se tiene como entrada un archivo xls que está conformada por dos columnas. La primera contiene la clasificación otorgada por un usuario experto y la segunda almacena el argumento candidato. La clase Reader es la encargada de interpretar este archivo y generar una lista de Nodo, en donde cada uno de estos está conformado por la información contenida en cada fila, bajo los nombres de “clase” y “texto”.

Luego se inicializan los recursos necesarios por cada una de las herramientas

utilizadas. Esto incluye los módulos de análisis lingüísticos de Freeling necesarios para el procesamiento de lenguaje natural, el corrector ortográfico y el clasificador implementado basado en la API de Weka.

Una vez inicializados cada uno de los recursos necesario para el procesamiento, se debe iterar sobre la lista de nodos cargados previamente, realizando por cada uno de ellos el pipeline definido previamente. Como primera medida se le brinda la posibilidad al usuario de verificar y corregir los errores sintácticos y ortográficos. Para ello se presenta una interfaz gráfica con el texto del argumento candidato, resaltando en rojo los posibles

62

errores detectados, brindando también la posibilidad de incorporar nuevas palabras al diccionario. Esto se puede ver en la figura 25.

A continuación, el argumento candidato es procesado por el módulo de PLN, conformado por la clase Splitter, Tokenizer, Maco y Tagger, dispuestos en forma secuencial obteniendo como salida el texto etiquetado. Esta salida dependerá de la variante de pre procesamiento que se haya elegido. Por ejemplo, en el caso de la variante en la cual no se etiqueta los conectores argumentativos se obtendrá todo el texto

rotulado, excluyendo de este análisis la lista de conectores definida previamente.

Para poder incorporar el argumento candidato al modelo de clasificador se debe crear un objeto de la clase Instance de Weka que contendrá dos atributos: Clase, que almacena la clasificación contenida en la clase Nodo, y Texto, encargada de guardar el argumento candidato etiquetado. Luego cada Instance en agregada a la colección de Instances.

Finalmente, y una vez realizado el procesamiento para cada nodo de la lista, se procede al entrenamiento del modelo. Para ello será necesario aplicar previamente un filtro StringToWordVector, para convertir el texto en vectores de palabras.

63

Por medio de método volcarDataset de la clase Clasificador de obtiene el ARFF resultante a partir de la variante seleccionada.

La interacción entre los módulos previamente mencionado puede verse reflejado en el diagrama de secuencia presentado en la figura 26.

Loop

64

4.5. Resumen

En este capítulo se detallaron los pasos para la obtención de una herramienta que fuera capaz de detectar sentencias argumentativas en textos no estructurados. El trabajo fue dividido en dos etapas bien definidas: la primera estuvo orientada a la generación del modelo del clasificador y la segunda a la herramienta de clasificación en sí misma. Debido a que para clasificar se necesita procesar la información de la misma forma que para generar el modelo, ambos procesos comparten parte del pipeline de procesamiento.

Se estructuró el capítulo con la idea de puntualizar cada una de las etapas enmarcadas en el proceso KDD aplicado al problema, detallando en cada una de ellas las consideraciones especiales que se tuvieron en cuenta.

Inicialmente se detalló cuál fue el origen de los datos y se identificaron algunas particularidades propias del dataset. Entre estas se pueden mencionar la existencia de opiniones en lugar de argumentos, la ausencia de algún componente argumentativo, la utilización de recursos visuales para definir alguna cualidad, entre otros.

En una etapa posterior, como indica el KDD, se detallaron los pre-procesamientos y transformaciones que se debieron aplicar al dataset origen, con el objetivo de estructurar de forma óptima la información que sirvió de base para la generación del modelo. Se estructuro esta etapa en 3 secciones, cada una orientada a un aspecto en particular. En el primer caso se detallaron tratamientos preliminares, tales como la forma de delimitar el tamaño de un argumento, la clasificación manual entre los que se consideraron argumentos y los que no, la edición de sentencias de entradas con el objetivo de incorporar algún faltante y por último la presencia de un corrector ortográfico que elimina el ruido que puede generar la presencia de palabras mal escritas. Como parte de la segunda sección se incorporaron procesamientos orientados al PLN, cuya función principal es la de descontextualizar el tópico de discusión al momento de generar el modelo. Se describieron cada uno de los módulos utilizados de Freeling, herramienta elegida para el procesamiento de PLN, cuya ejecución permite obtener como salida resultante una secuencia de etiquetas. Las mismas son cadenas de caracteres definidas por EAGLES y

65

utilizadas por Freeling e indican la función semántica de la palabra dentro de las sentencias y otras características según su tipo (genero, número, etc.).

Finalmente se detallaron las consideraciones que se tuvieron en cuenta a la hora de la generación del archivo de entrenamiento. En esta etapa de detalló la composición del archivo ARFF y los filtros que fueron indispensables al momento de aplicar los distintos algoritmos de clasificación.

En la etapa de data minning del KDD se generaron modelos a partir de la combinación de distintos algoritmos y algunas variantes de los pre-procesamientos y transformaciones explicadas anteriormente. Si bien todas las variantes estaban enfocadas en la transformación de las etiquetas, algunas hicieron hincapié en la longitud de las etiquetas y otras en la presencia de conectores argumentativos. A partir de estas combinaciones se obtuvieron un total de 30 modelos, los cuales fueron analizados con el objetivo de encontrar la combinación que maximice la tasa de acierto al momento de clasificar. Dicha evaluación de presenta en detalle en el próximo capítulo.

66

Capítulo 5

Related documents