Ensemble post-processing and related issues

4.2 Distribution-free ensemble post-processing: methodology

4.2.6 Ensemble post-processing and related issues

4.3. Preprocesamiento

Durante esta fase de preprocesado, prepararemos los informes para representalos en los formatos adecuados para alimentar a nuestros futuros clasiﬁcadores de textos. Para ello haremos uso de las expresiones regulares y realizaremos un procesamiento del lenguaje natural.

4.3.1. Uso de expresiones regulares

Debido a que nuestros textos tienen una longitud media de palabras del orden de 52 y tenemos un total de 9130 informes a tratar, tendremos que realizar este parte del proceso de la forma más automática posible. Las expresiones regulares nos ayudarán en este proceso ya que son una herramienta bastante potente en el sentido que nos ayudará a escanear los textos para encontrar los patrones que esten en nuestros documentos y así tratarlos en consecuencia.

Esto puede ser desde el simple transformado de las palabras a caracteres minúscu- los, hasta la eliminación de carácteres extraños como $, %| o el simple cambio de una letra con tilde a que no tenga. Con esto, lo que estamos haciendo es realizar una primera pasada sobre los documentos para asíuniﬁcar su formato y poder continuar explorándolos con más detalle.

Las exporesiones regulares también nos ayudarán a identiﬁcar las partes más importantes de los textos. Si sabemos que la conclusión de un informe es predecida por la palabra CONCLUSION, podemos buscarla en todos los textos y quedarnos por ejemplo con la última instancia de ésta para saber en que momento empieza esta sección del texto. Esto también es perfectamente aplicable tanto a las fechas, las ecografías o el tipo de la categoría BI-RADS del informe.

Por tanto habiendo identificado en su mayoría estas partes, podremos ver qué documentos tienen una conclusión, cuáles no, si están clasificados o no, si tienen una descripción del informe o si está nula y así almacenar los que nos interesen y, tal y como comentamos en la sección anterior, de los 9130 informes, al final nos queda- mos con 8183. Los documentos descartados o no tenían un apartado de conclusión o no se encontraron patrones que estableciesen una categoría BI-RADS concluyente.

4.3.2. Uso de técnicas de procesamiento de lenguaje natural

Después de haber realizado estos primeros pasos de limpieza es hora de pasar a ver el significado de las palabras. Cada vocablo del documento tiene un valor significa- tivo frente a otras y es nuestro objetivo quedarnos con las más representativas. Por ejemplo en la frase:Los gatos se sentaron en las mesas, las palabras más importantes son gatos, sentaron y mesas. Si nos fijamos bien en el ejemplo, el resto de palabras con como ruido de fondo, sólo nos interesa saber que hay un gato, sentado, mesa. Las palabras que acabamos de quitar de la frase inicial traen consigo mismas un concepto bastante interesante denominadostopwords [24].

Las stopwords son exactamente esas palabras que hemos descrito en el ejemplo: ruido de fondo, palabras que a nivel de signiﬁcado no tienen valor a la hora de dife-

Diseño experimental

renciar una frase y otra. En el lenguaje español (en el que tenemos los textos escritos) tenemos un total de unas 313 palabras que no nos ofrecen nada de valor. En este grupo podemos incluir artículos (el, la, le...), adverbios (muy, tan...), preposiciones (sin, con...) e incluso formas verbales auxiliares (han, hubieran...).

Pero el análisis de los textos no se queda ahí, todavía podemos limpiar mucho más nuestro querido ejemplo. Pongamos ahora el caso siguiente: La gata se sentó en la mesa. La pregunta es si existe alguna diferencia entre esta frase y la anterior y la respuesta para un hablante de nuestro idioma sería que sí. Su sintaxis y semántica diﬁeren por completo. Sin embargo, replanteándonos el problema de nuevo y sabiendo que solo necesitamos la esencia de las palabras para abstraer su signiﬁcado, las dos sentencias en realidad son casi la misma. Ambas tratan sobre el mismo animal y los mismos objetos. Esta analogía se puede deducir perfectamente aplicando este razonamiento pero el problema reside en cómo vamos a hacer que el ordenador sepa que ambas frases son iguales cuando sintácticamente y semánticamente son completamente diferentes.

Tenemos que simpliﬁcar las palabras, transformarlas para que la esencia de las dos oraciones se mantenga y así ver que son la misma en realidad y para ello vamos a tokenizar y stemizar las palabras [25]. Los dos procesos están muy ligados entre sí, ya que básicamente lo que van a realizar es una operación sobre las palabras y transformarlas en otra. ¿Y cómo vamos a transformarlas? Fácil, apoyándonos en la estructura misma del lenguaje.

Las palabras en español normalmente están compuestas de la siguiente forma: Preﬁjos

Inﬁjos Lexemas Suﬁjos

Cada palabra está compuesta por una o varias de estas partes y la más importante de todas es el lexema o raíz del vocablo. Todas las palabras de una misma famila comparten esta parte y vamos a aprovecharla para simpliﬁcar las palabras. Por tanto sabiendo esto, las dos frases que antes teníamos con los gatos se podrían simpliﬁcar a una misma:gato sent mesa.

Con esto lo que estamos haciendo es no sólo simpliﬁcar el signiﬁcado de los documentos radiológicos, sino que también evitar redundancias y uniformizar el formato de los mismo y, por tanto, ayudar en el siguiente paso de representación de los textos.

4.3.3. Ejemplo de informe ﬁltrado

Aplicando las operaciones de preprocesamieto explicadas anteriormente pasaremos del informe inicial propuesto en la sección 4.2.3 al siguiente:

ecograf mamari explor ambas mam observ predomini tej fibroglandul fibroadip observ algun quist dispers mayor centimetr persist dos formacion nodular sol probabl rela- cion fibroadenom establ hac vari anos nivel cuadrant super intern derech 10 mm cse izquierd 11 mm

In document Statistical methods for post-processing ensemble weather forecasts (Page 115-117)