• No results found

Questionnaire as Data Collection Instrument

ración todos los valores del cálculo con su respectiva importancia. En el siguiente ejemplo se aclara el por qué del uso de la media armónica.

Si con un coche conducimos 10 minutos a 100 km/h y otros 10 minutos a 200 km/h, la media de la velocidad es, efectivamente, 150 km/h. Pero si conducimos 50 km a 100 km/h y la misma distancia a 200 km/h, la media de la velocidad no se puede calcular de la misma manera puesto que hemos conducido más tiempo a 100 km/h. De esta manera es nece- sario penalizar de alguna manera a los valores altos y recompensar a los pequeños.

De manera análoga, si el modelo devuelve una sola palabra que está contenida en el texto referencia, la precisión será muy grande mientras que la sensibilidad no. Si calculásemos la media aritmética, nos daría un valor poco representativo, pues el resultado no es positivo. La media armónica nos da como resultado un valor muy cercano a cero, más representativo del éxito obtenido.

Por lo tanto, para obtener un buen F score, es necesario que ambos, precisión y sensibilidad, sean altos.

Existen muchas otras métricas, en concreto, el proyecto utiliza tres. Las dos mencionadas anteriormente y una última llamada NIST, que básicamente es una mejora de la métrica BLEU.

Sin embargo, para nuestra adaptación, se ha optado por el uso únicamente de ROUGE. Como hemos mencionado, es una métrica recomendada para evaluar al- goritmos que tratan de resumir textos más grandes y, aunque no es nuestro caso, sí que necesitamos que el algoritmo comprenda la información importante de una entrada a la hora de generar texto, algo muy similar a resumir.

5.2.

Textos generados por el sistema

5.2.1.

Inicialización fija de los pesos

A lo largo de los entrenamientos que hemos visto en el capítulo anterior, he- mos ido guardando los resultados obtenidos con diferentes ejemplo. A continuación introduciremos una serie de ellos:

Para el caso de la inicialización fija de los pesos, encontramos resultados muy satisfactorios, a primera vista. En las figuras que se observan a continuación, tenemos en azul el texto esperado y en amarillo el texto generado:

5. Resultados

Figura 5.4: Resultados

Figura 5.5: Resultados

En los tres resultados expuestos, se puede apreciar la calidad bastante conseguida de los mismos. De hecho, estamos hablando de unos valores bastante buenos si hablamos de las métricas usadas, obtenemos valores de 99,9 % en todos los casos.

Por otro lado, los valores en las métricas ROUGE-n son bastante buenos para unigramas, lo cual no es sorprendente pues se trata de una generación de texto basado en palabras y no en caracteres. Sin embargo, observamos que el valor de la métrica para bigramas es bastante mejorable, poco más de 11 %.

En cuanto a métricas, nuestra investigación no da resultados absurdos, sino todo lo contrario. Aún así encontramos un fallo a tener en cuenta. Si prestamos atención a la diferencia entre la frase generada y la deseada de la figura 5.5, la única palabra que cambia es eine por keine. A priori no parece un fallo grave, pero si tenemos en cuenta que, en alemán,eine quiere decir algún ykeine, ningún, hemos generado una frase contraria a la deseada.

Por ello también sería necesario prestar atención de alguna manera a este tipo de casos.

5.2.2.

Inicialización aleatoria de los pesos

Observemos ahora, los resultados generados con una inicialización aleatoria de los pesos en la red.

Figura 5.6: Resultados

Figura 5.7: Resultados

Se comprueba que la complicación más notable es la anteriormente vista con keine y eine, en la figura 5.6.

5.2. Textos generados por el sistema

Por otro lado, seguimos obteniendo resultados bastante satisfactorios teniendo en cuenta el estado de la cuestión, visto en el capítulo 2 de este documento.

Capítulo 6

Conclusiones

A lo largo de este proyecto, hemos tenido presente el objetivo del mismo: estudiar la posibilidad de migrar el sistema de generación de documentos de una compañía de seguros, partiendo de un sistema basado en reglas a uno que usara mecanismos de ML. Se ha realizado una exhaustiva investigación acerca del estado de la cuestión, estudiando los diferentes sistemas de NLG existentes y haciendo hincapié en aquellos que utilizaban la tecnología deseada.

Tras barajar varias posibilidades de sistemas de NLG, optamos por uno en con- creto que genera la primera frase de las biografías de Wikipedia a partir de los datos de las mismas. Hemos adaptado dicho sistema a nuestro caso de negocio para trabajar con nuestra hipótesis de migración.

Hemos tenido que realizar un enrevesado pero eficaz preprocesamiento para poder comenzar con la gran cantidad de entrenamientos que hemos llevado a cabo.

Tras esta etapa final, se han evaluado los resultados obtenidos para poder concluir el proyecto y poder comunicarle a la compañía de seguros la decisión tomada.

6.1.

Decisión final

Como respuesta a la questión planteada en el apartado objetivos del primer capítulo acerca de proponer una solución basada en ML para la generación de dichos documentos, hemos visto cómo, con la tecnología existente, se trata de una propuesta ambiciosa.

En primer lugar, notamos que los pequeños fallos cometidos en las generaciones de texto realizadas, son de importancia considerable, sobre todo si cambia el sentido de la frase.

Además, debido a que nos encontramos en el estado de la cuestión de la gene- ración de texto a partir de información estructurada, por lo que crear un sistema de NLG a partir de datos, para la simple tarea de redactar un documento, es un sinsentido en la actualidad. Aún así, no se descarta la idea de aplicar dichos méto- dos cuando realmente se pueda generar el documento en su totalidad a partir de las pólizas.

Por último, hemos realizado numerosas pruebas generando la primera o la segun- da frase del texto deseado, observando que, de entre más de 17.000, los comienzos de los textos son muy similares, que el sistema aprenda a generarlas es relativamente sencillo. Esto quiere decir, que no aprende a generalizar.

La razón principal por la que se descarta esta opción, es debido al correcto funcionamiento del sistema basado en reglas actual y a que, probablemente, el nuevo sistema basado en ML no mejoraría el actual.