CHAPTER 7 REVISED GREENHOUSE-GAS EMISSIONS FROM
7.2.2. Changes to the methodology
La tercera fase del modelo propuesto, está dedicada al análisis y extracción de la información relevante contenida en los datos recuperados de las fuentes de información. Es en este punto donde entran en juego las técnicas y los algoritmos de minería de datos, o de textos en este caso. Igual que en las fases anteriores, se han identificado un conjunto de pasos básicos necesarios para completar con éxito esta fase. Algunos de ellos corresponden a trabajos previos al proceso mismo de extracción como puede observarse en la figura 3.4.
Los pasos identificados en la fase de extracción son los siguientes:
a) Evaluación preliminar de los datos. Antes de poder extraer cualquier información es necesario tener completamente claro dos cuestiones: una, qué se quiere extraer. Dos, cómo aparece dicha información en los datos de entrada. Un análisis preliminar de los mismos permitirá identificar las posibilidades reales de éxito y servirá de ayuda para determinar cuáles son
Fase III: Extracción
las técnicas más adecuadas en cada caso. También será necesario verificar, en los datos de entrada, la existencia de información suficiente que permita la clasificación de la información extraída.
Este análisis preliminar debe realizarlo de manera manual un experto en la materia. Resulta evidente pensar que para volúmenes de datos grandes, no resulta factible realizar una verificación exhaustiva de todos los datos. Por lo tanto, será necesario seleccionar una muestra representativa para realizar el análisis. Esta muestra podría tomarse aleatoriamente pero los resultados que se obtendrían podrían ser poco útiles ya que los datos seleccionados podrían no contener el tipo de información buscada. En este punto, es necesario analizar datos de entrada de los que se esté seguros que contienen el tipo de información que interesa. La muestra de los datos de entrada deberá ser seleccionada manualmente por uno o varios expertos para garantizar la premisa anterior.
Una vez seleccionada la muestra de entrada se procederá con el análisis de la misma. El objetivo consiste en tratar de identificar ciertas características comunes—morfológicas, sintácticas, semánticas,
Figura 3.4 – Definición completa del proceso de extracción de información
Métodos combinaciones de ellas o de cualquier otro tipo—que se repitan en diferentes datos de entrada. Una vez identificadas estas características, el conocimiento adquirido será utilizado en los siguientes pasos para seleccionar la técnica más apropiada para su extracción automática.
b) Selección de técnicas y herramientas. En este punto ya se han identificado una serie de características comunes presentes en los datos de entrada y es necesario determinar las técnicas o métodos de extracción que mejor se adapten al tipo de información que se necesita extraer. Como ya se expuso en la tabla 2.1, existen multitud de herramientas y librerías implementadas y disponibles por Internet. En este paso debe realizarse una valoración de las que resulten más adecuadas considerando criterios tales como: Si implementan las técnicas necesarias en función del tipo de entrada de que se disponga. Disponibilidad de las herramientas y librerías. Si son libres o requieren una licencia de uso. O, incluso, la experiencia de los desarrolladores con el entorno de trabajo y el lenguaje de programación.
Una vez realizada dicha valoración, deberá seleccionarse la(s) que mejor se adapte(n) a las necesidades. En este caso, el lenguaje de programación no debería ser un impedimento porque existen extensiones e implementaciones libres para casi todos los lenguajes más populares, como puede verse en la tabla 2.1.
c) Preparación o puesta a punto de técnicas y herramientas. Este tercer paso no siempre es necesario realizarlo, pero, en ocasiones, resulta imprescindible en función de la técnica seleccionada. Por ejemplo, las técnicas basadas en aprendizaje automático necesitan un periodo de entrenamiento y refinamiento, o las técnicas que usan patrones necesitan que dichos patrones sean definidos previamente a la extracción. Lo que es común en cualquier caso es la necesidad de establecer un conjunto de prueba, preferiblemente con datos reales. En el primer paso de esta fase, se mencionaba la necesidad de establecer una muestra para analizar los datos
Fase III: Extracción
de entrada. Dicha muestra podría reutilizarse como conjunto de entrenamiento en este paso.
Este paso es el que requiere un mayor grado de “creatividad” por parte del desarrollador. Los resultados dependerán de su pericia para seleccionar el conjunto de prueba idóneo, de su capacidad de observación y análisis para la generación de las reglas o patrones que utilizará el algoritmo de extracción, o del proceso continuo de actualización de los algoritmos a lo largo del tiempo. De hecho, los algoritmos de extracción deben incorporar mecanismos de ajuste y actualización con el fin de adaptarlos a la realidad existente en cada momento.
d) Definición del sistema de almacenamiento. Antes de procesar los datos de entrada es necesario definir también la forma en que serán almacenados los resultados para su posterior utilización. Como regla general, los algoritmos de extracción producen, a su salida, una lista de términos o conceptos. Las dos opciones más habituales para almacenar dicha información son los ficheros de texto y las bases de datos. La elección de uno u otro sistema dependerá del uso posterior que se vaya a hacer del mismo. Los ficheros de texto pueden resultar más interesantes cuando la información extraída es utilizada por otras aplicaciones para un procesamiento posterior. En este caso, deberá definirse la estructura interna de los mismos, por ejemplo, si los datos tendrán un formato tabular o si tendrán un marcado tipo XML. Por otra parte, las bases de datos resultan más recomendables cuando la información extraída no necesita ser tratada adicionalmente, sino sólo consultada. En este caso, deberá diseñarse la estructura de las tablas que almacenarán la información.
e) Extracción de la información relevante. Finalmente, una vez preparados los algoritmos de extracción y el sistema de almacenamiento de los resultados, sólo queda ejecutar dichos algoritmos y herramientas desarrollados utilizando el conjunto de datos real de entrada.
Métodos