• No results found

CHAPTER 5: Thesis summary and conclusions

5.2 Conclusions and recommendations for future research

5.2.5 Final concluding remarks

Los diagramas de actividad describen los casos de usos de los actores que están presente en la solución del software.

Figura 13. Diagrama de Actividades correspondiente al Caso de uso “Analizar la estructura propuesta del almacén de datos” del módulo ETL.

En este diagrama de actividad se explica la funcionalidad que se le ofrece al analista del sistema. Primeramente este analiza la estructura propuesta del almacén de datos, si no es correcta entonces tiene que reestructurarla para que quede correcta, luego analiza la estructura de los sistemas de información fuentes si no es correcta entonces debe corregirla para que el almacén no contenga errores y luego aplica el módulo ETL con los ajustes necesarios.

71

Conclusiones Parciales

En este tercer capítulo quedaron plasmados los principales diagramas UML que se tuvieron en cuenta a la hora de realizar el diseño y la implementación del software, dentro de los que se encuentran el de casos de usos, el de clases ,el de componentes y el de actividad, además se explicaron cada uno de ellos.

Además se revisó a estructura de la base de datos fuentes y se creó la estructura del almacén con el cuál se va trabajar.

72

Capítulo 4.

“Descripción de Características del

Sistema ETL”

Sistema ETL es un software desarrollado en la Universidad Central Marta Abreu de Las Villas para el trabajo con una Base de Datos de Control de Aspirantes que contiene información de más de una década de los aspirantes a doctores formados en esta universidad o trabajadores de la misma que se han formado en otras universidades. La misma fue desarrollada en Access XP y se explota actualmente en el Departamento de Postgrado de la UCLV.

El software se encarga de extraer, limpiar y cargar los datos de dicho sistema de información fuente hacia un almacén, para su mejor análisis, lo que ayuda mejorar el proceso de formación doctoral en dicha universidad.

La aplicación posee el siguiente diseño:

73 La Figura 14 muestra la pantalla principal, desde donde se pueden realizar las operaciones

correspondientes que fueron agrupadas en las opciones de menú “Archivo” y “Ayuda”. Si se solicita esta última, se presenta la siguiente ventana con una explicación breve de como utilizar el módulo ETL y para que fue creado.

Figura 15. Ventana de Ayuda del módulo ETL.

Si en la ventana principal el analista decide empezar el trabajo, debe seleccionar la opción de “Archivo”, lo que da lugar a que se expanda un menú Pull-Down (ver Figura 16) con las opciones “Extraer”, “Limpieza” y “Cargar”.

La opción “Extraer” se corresponde con la operación de revisar la Base de Datos fuente deseada, para ello se abre la ventana “Abrir” que lista diferentes archivos a poder seleccionar (ver Figura 17). Aquí se puede seleccionar el sistema fuente de información a utilizar, y entonces el módulo ETL presenta la estructura de tablas y de atributos de cada una, para que el analista pueda comprobar de donde parten los datos fuentes (ver Figura 18).

74 Figura 16. Ventana con menú Pull-Down desplegado del módulo ETL.

75 Figura 18. Ventana que presenta Tablas y Atributos de BD fuente.

Después que se revisó el SI fuente y se seleccionan las tablas que se utilizarán, se debe usar la opción “Limpieza” a partir de la cual se le pasan los algoritmos de limpieza para mejorar los datos. En esta versión solo se incluyó un algoritmo de limpieza (KMedoides). Al software se le pueden añadir en futuras versiones otros algoritmos (ver figura 19). Al seleccionar el algoritmo a pasar, hay que seleccionar la tabla a limpiar, luego de formarse el clúster, se selecciona la palabra que sustituirá las demás del clúster (ver figura 20).

76 Figura 20. Ventana de selección de tablas a la que se aplicará el algoritmo de Limpieza. Luego de limpiar los datos el usuario puede cargar los datos en la opción Cargar (ver figura 21).

77 En esta versión del módulo ETL se decidió usar una estructura de Almacén de datos propuesta e implementada en Access. Una posible ampliación del Software pudiera considerar decidir que SGBD es el utilizado para el almacén.

Como resultado de ejecución del módulo se puede apreciar a continuación (varias figuras) como quedan diferentes Dimensiones y la tabla de Hechos del almacén.

78 Figura 23. Dimensión Tiempo (parcial)

79

Conclusiones Parciales

En este cuarto capítulo se explica detalladamente cada opción para el trabajo con el software, desde las opciones de la ventana principal, hasta las opciones de extracción, limpieza y carga hacia el almacén; haciéndole el trabajo al usuario más simple y mejor.

También se lista a manera de ejemplo la tabla de hechos y dos dimensiones con los registros que incluye, luego de ejecutado el módulo ETL, o sea, el resultado de la Carga de datos desde el sistema fuente al Almacén.

80

Conclusiones

Como resultado de este trabajo se desarrolló un sistema ETL, el cual proporciona a los trabajadores del departamento de postgrado de la UCLV una herramienta ágil para la creación de un almacén de datos el cual ayudará a mejorar la eficacia del proceso de formación doctoral; cumpliéndose de esta forma los objetivos planteados, ya que:

1. Se establecieron las pautas metodológicas de creación de herramientas ETL para almacenes de datos a partir de sistemas de información desarrollados en nuestro medio, adecuando y especificando más algunas consideraciones obtenidas de la literatura.

2. Se creó la estructura de base de datos del almacén sobre el SGBD Access. Se tomó este en cuenta teniendo como premisa que era más fácil para su elaboración y dado que el SI fuente estaba sobre ese mismo gestor.

3. Se implementó una herramienta o sistema, que permite realizar la carga, transformación y limpieza de datos del sistema de información hacia un almacén de datos previamente planteado en forma de modelo estrella. La herramienta se diseñó con el uso del Lenguaje Unificado de Modelado (UML) sobre el CASE Visual Paradigm y se programó en lenguaje Java.

4. Se evaluó la herramienta a partir del sistema de información Control de Aspirantes, que se explota en la UCLV, realizando la carga de los datos hacia el almacén propuesto, incluyendo la ejecución de un módulo de limpieza ya desarrollado previamente y que se vincula con este software.

81

Recomendaciones

 Posibilitar la vinculación al software de otros algoritmos de limpieza, como componentes

plug-in, en nuevas versiones.

 Tener en cuenta otros criterios que puedan ampliar las pautas metodológicas para el desarrollo de ETLs en nuestro medio.

 Perfeccionar el software de manera que se puedan trabajar con varios SGBD tanto fuentes como de destino.

82

Referencias Bibliográficas

A. SIMITSIS, P., VASSILIADIS, T, SELLIS 2005. State-Space Optimization of ETL Workflows.

CASTERS, M. 2010. Pentaho Kettle Solutions.

COMMUNITY, A. 2010. Available: http://www.apatarforge.org/Apatar. CORPORATION. 2010. Available: http://www.abinitio.com/.

CRUZ, R. D. J. M. 2012. Extracción y documentación de patrones en los procesos ETL. . Ingenieria, Martha Abreu de lasVillas.

CHÁVEZ, J. V. 2011. Marco de trabajo basado en ontologías para el proceso ETL. Maestro en Ciencias de la Computación, Centro de Investigación y de Estudios Avanzados del Instituto Politecnico Nacional.

DANAY LÓPEZ BURGOS, Y. G. A. 2013. Estudio del Pentaho Data Integration en los

procesos de integración de datos(ETL). Universidad Central “Marta Abreu” de Las

Villas.

GIL, J. V. 2011. Oracle Data Integrator [Online]. Available: http://blog/oracle-data-integrator- 11g.

GRECOL, M. L. 2012. Microsoft SSIS and Pentaho Kettle: A Comparative Study for Three-Tier Data Warehouses.

GUTIÉRREZ, L. A. V. 2010. CÓMO ABORDAR UN PROYECTO DE BUSINESS

INTELLIGENCE EN UNA EMPRESA U ORGANIZACIÓN. UNIVERSIDAD EAFIT

HOGG, K. 2009. El análisis de la integración de datos Algoritmos. INMON, W. 1992. Building the Data Warehouse.

INMON, W. H. 2005. Building the data warehouse, John wiley & sons. JAVLIN 2011a. Información de Integración de Datos.

JAVLIN. 2011b. Información de Integración de Datos

Vista rápida en el mundo de los datos [Online]. Available: http://www.dataintegration.info/etl [Accessed 3/12/2012 2012].

KIMBALL, R. & CASERTA, J. 2004. The Data Warehouse ETL Toolkit. Indianapolis: Wiley Publishing, Inc.

LUIS ENRIQUE SÁNCHEZ CRESPO, D. V. A. 2000. Data Cleaning para Data Warehouse. Curso de doctorado: Tecnologias Avanzadas de Informática, Universidad de Castilla la Mancha.

LUJÁN-MORA, S., TRUJILLO, J., SONG, I 2002a. Extending UML for Multidimensional Modeling.

LUJÁN-MORA, S., TRUJILLO, J., SONG, I 2002b. Multidimensional Modeling with UML Package Diagrams.

LUJÁN-MORA, S., TRUJILLO, J.: (ed.) 2003. A Comprehensive Method for DataWarehouse

Design.

MATT CASTERS, R. B., JOS VAN DONGEN 2010. Pentaho Kettle Solutions. MONDÉJAR, J. C. T. 2005. Almacenes de datos.

83 MUFIOZ, L. M., JOSE-NORBERTO TRUJILLO, JUAN 2011. ETL process modeling

conceptual for data warehouses: a systematic mapping study. Latin America

Transactions, IEEE (Revista IEEE America Latina), 9, 358-363.

NADER, I. J. 2003. “ Sistema de Apoyo Gerencial Universitario ”. PAZ, M. L. D. D. L. 2012. Pentaho Data Integration: ETL.

PRÉSTAMO, M. M. Y. 2004. Construcción de un Data Warehouse de datos del medio ambiente

para la toma de decisiones: aplicación a los datos hidrológicos Licenciatura en

Ingeniería en Sistemas Computacionales, Universidad de las Américas Puebla.

SERGIO LUJÁN-MORA1, J. T., AND PANOS VASSILIADIS2 2009. Diagramas de mapeo de atributos para el diseño de almacenes de datos con UML.

TRUJILLO, J., LUJÁN-MORA, S.: 2003. A UML Based Approach for Modeling ETL Processes in Data Warehouses.

TRUJILLO, J., PALOMAR, M., GÓMEZ, J., SONG, 2001. Designing Data Warehouses with OO Conceptual Models.

VASSILIADIS, P., SIMITSIS, A., SKIADOPOULOS, S 2002a. Conceptual Modeling for ETL Processes.

VASSILIADIS, P., SIMITSIS, A., SKIADOPOULOS, S.: 2002b. Modeling ETL Activities as Graphs.

Related documents