The Value of Depth - The value of effort

Ahora bien, solo resta proceder a realizar las consultas correspondientes que arrojen la información solicitada. Para esto se va a hacer uso de la administración web de HUE, en donde por medio de la ejecución de consultas hiveSQL se tienen funcionalidades muy interesantes.

En la ilustración 61 se observa como al momento de ejecutar una consulta, la cual cuenta las referencias de los procesos generadas por cada entidad con un límite de 5 y de forma descendente, es creado un Job en el nodo1 con un número de referencia terminado en 97_0001.

Ilustración 61 Ejecución consulta hiveSQL - administración HUE. Fuente propia.

Cuando la consulta finaliza con un status 200, se puede observar la tabla generada para las columnas de la consulta. En este caso se tiene una columna para la entidad y otra para la cantidad de procesos que tiene registrado en el SECOP:

Y no solo eso, también permite visualizar de manera mucho más grafica por medio de un gráfico de tipo Barras o PIE el resultado de la consulta. se evidencia que la entidad con más procesos registrados es la empresa de acueducto y alcantarillado de Bogotá con un número de 2329.

Ilustración 63 Grafico de Barras, consulta hiveSQL. Fuente propia.

Ilustración 64 Gráfico de Barras, consulta hiveSQL. Fuente propia.

En caso de poseer información con geolocalización, que se pueda discriminar en la consulta, es posible la generación de un gráfico con la distribución de los datos en un mapa precargado de los

diferentes países. Esto puede ser un valor agregado en casos de compañías presentes en diferentes países y que por ejemplo deseen conocer la cantidad de productos vendidos en cada uno de estos

Y no solamente se dispone de estos tres tipos de gráficos. Existen gráficos de dispersión y mapas de calor que pueden ayudar a entender más los datos arrojados por las diferentes consultas. Además, se pueden implementar otras herramientas como lo es Excel conectado con el OBCD de HIVE para hacer una interpretación diferente de los datos.

Ilustración 65 Grafico de Geolocalización. HUE. Fuente propia

Otra consulta que se pueda generar a partir de los datos obtenidos por el WebScraping realizado sobre el SECOP, es la cantidad de procesos publicados por entidad en el transcurso del año 2019.

Como se evidencia se pueden ver los resultados, y dan un total de 984 procesos licitatorios generados por la Agencia Logística de las Fuerzas Militares

Ilustración 67 Entidades con más procesos registrados 2019 - HUE. Fuente propia.

Ilustración 68 Gráfico de Barras, cantidad procesos SECOP 2019. Fuente propia.

Finalmente es también posible la descarga de la información de cada una de las consultas en un formato CSV o Excel e inclusive se puede copiar al portapapeles por ejemplo la tabla resultante. Con esto logramos complementar Hadoop y se abren muchas más opciones para comenzar a usarlo en la cualquier organización con el fin de sacarle el mejor provecho a los datos que capturan de cualquier tipo de fuente.

CONCLUSIONES

Es importante realizar un análisis del modelo de negocio al cual se quiere aplicar el concepto de Big Data, ya que con esto se logrará estructurar una solución más acorde a las necesidades encontradas y permitirá sacar mejor provecho a los recursos los cuales tienden a ser en su mayoría limitados. Adicionalmente, lo más optimó es contar con la opinión de un experto que oriente la planeación de la implementación del modelo de Big Data y a su vez contar conjuntamente con una persona de la organización que conozca todos los procesos inmersos los cuales se contempla hacerles analítica de datos.

Con la integración de herramientas relacionadas con Apache Hadoop es posible optimizar el tiempo de ejecución de las actividades que bajo un modelo normal tardaría mucho en obtener resultados satisfactorios y que otorguen valor. La computación distribuida es la solución para muchos problemas de rendimiento, escalabilidad y tolerancia a fallos, debido a que al contar con un Clúster, la disponibilidad e integridad de los datos se incrementa exponencialmente.

Cada uno de los elementos que interactúan en el modelo tiene un variado número de configuraciones, por lo cual para garantizar la estabilidad y continuidad de cualquier proyecto relacionado con Hadoop es necesario contar con personal experto en el manejo y administración de cada solución. Así mismo, es importante el trabajo en conjunto de las diferentes áreas que afectan directamente el planteamiento del modelo como, por ejemplo: Devops, Seguridad, Base de Datos, Data Science, entre otros.

Una vez que ya se encuentra en producción un modelo de Big Data, es posible realizar la analítica de los datos de diferentes formas. Existen soluciones que son más sencillas de integrar que otras, por ejemplo, la que se trabajó en el proyecto en cuestión (HUE), pero pueden que no

sean tan configurables como se requiere, de modo que conocer el funcionamiento detallado de cada elemento dentro del modelo permitirá llegar a resultados más completos y enriquecedores para la organización.

En definitiva, es posible la gestión de los procesos licitatorios en Colombia, a partir de las técnicas disponibles para usar analítica de datos. Gracias a que existe una documentación robusta de cada solución open source de Apache y a una comunidad activa que debate y ayuda con los posibles problemas de implementación, se facilita el uso y aplicación del concepto de Big Data sobre cualquier entorno de trabajo lo que se resume en una mejora constante de las configuraciones y arquitecturas definidas en cada proyecto.

Así mismo, con la gestión de la información en un modelo de Big Data, se logra identificar constantemente oportunidades de mejora, de una forma rápida y eficaz, en cuanto al cómo se trata los datos entrantes de las diferentes fuentes y que se puede lograr con los resultados de procesar dichos datos.

RECOMENDACIONES

Al momento de iniciar cualquier proyecto de Big Data es necesario considerar la capacidad de inversión en recursos físicos, ya que a pesar de que la licencia de la mayoría de los productos asociados es Open Source cada nodo debe contar con un mínimo de memoria y procesador para su correcto funcionamiento, por lo tanto, si no se hace una planeación adecuada para la adquisición de recursos puede que el proyecto quede parado en algún punto o no cumpla con las expectativas planteadas.

Otro punto importante es la verificación de los parámetros de seguridad en la red. En ocasiones la ejecución o acceso a los servicios disponibles en Hadoop no se logra completar por los bloqueos en los puertos en el Firewall de las organizaciones, es por esto que se debe trabajar en conjunto con las áreas de seguridad y redes para garantizar un correcto despliegue de una solución de Big Data. Así mismo, no hay que olvidar que en caso de contar con los certificados SSL el puerto puede variar para la comunicación entre las diferentes herramientas y el acceso a los servicios.

En cuanto al despliegue de cada uno de los nodos dentro de un modelo de Big Data con Hadoop, es recomendable revisar más a profundidad las opciones de configuración y servicios que ofrece el proyecto Docker. Uno de los conceptos a tener en cuenta es conocido como Kubernetes, el cual es usado para la automatización de despliegue de contenedores lo que permitiría optimizar al administrador los temas relacionados con escalabilidad y tolerancia a fallos lo que finalmente se encuentra dentro de la filosofía de lo que es Hadoop.

BIBLIOGRAFÍA

Amazon (s.f.). Apache HBase en Amazon EMR. Recuperado de https://aws.amazon.com/es/emr/details/hbase/

Apache Org. (2018). Apache Hadoop 3.2.0. Recuperado de https://hadoop.apache.org/docs/r3.2.0/

Apache Org. (2018). Apache HIVE. Recuperado de

https://cwiki.apache.org/confluence/display/Hive/Home

Apache org. (2019). Dowload Hadoop. Recuperado de

https://hadoop.apache.org/releases.html

Apache org. (2019) YARN. Recuperado de

htt.ps://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html

Bertolucci. J. (2013). Big Data Analytics: Descriptive Vs. Predictive Vs. Prescriptive. Recuperado de https://www.informationweek.com/big-data/big-data-analytics/big-data- analytics-descriptive-vs-predictive-vs-prescriptive/d/d-id/1113279

Colombia compra eficiente. (2019). SECOP. Recuperado de https://www.colombiacompra.gov.co/

Consejo Nacional De Política Económica Y Social. (2018) POLÍTICA NACIONAL DE

EXPLOTACIÓN DE DATOS (BIG DATA). Recuperado de

https://colaboracion.dnp.gov.co/CDT/Conpes/Econ%C3%B3micos/3920.pdf

Cloudera. (2019). Cloudera Documentation. Recuperado de https://docs.hortonworks.com/

Cloudera Engineering Blog. (2013) How HiveServer2 Brings Security and Concurrency to Apache Hive. Recuperado de https://blog.cloudera.com/blog/2013/07/how-hiveserver2- brings-security-and-concurrency-to-apache-hive/

Docker. (2019) La plataforma moderna para la innovación de alta velocidad. Recuperado de https://www.docker.com/why-docker

Escuela de datos. (2016). Introducción a la extracción de datos de sitios web: scraping. Recuperado de https://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-sitios- web-scraping/

Glez J. M. (2014). Introducción a la Analítica de Datos (I). Recuperado de https://www.analiticaweb.es/introduccion-a-la-analitica-de-datos-i/

Glosario-over-blog.es. Leyes sobre software Libre en Colombia (2010) Recuperado de http://glosario.over-blog.es/article-leyes-sobre-software-libre-en-colombia-59255157.html

Instituto de Ingeniería del Conocimiento (IIC, 2016). 7 Herramientas Big Data para tu empresa. Recuperado de http://www.iic.uam.es/innovacion/herramientas-big-data-para- empresa/

KienyKe (2017). Analítica de datos ¿qué es y cómo vamos en el tema de Colombia?

KienyKe Tecnología. Recuperado de

https://www.kienyke.com/tendencias/tecnologia/analitica-de-datos-que-es-y-como-vamos- en-el-tema-de-colombia

La Vanguardia. (2018) Un proyecto europeo de big data servirá para controlar los

contratos públicos. Recuperado de

https://www.lavanguardia.com/vida/20180119/44120927162/un-proyecto-europeo-de-big- data-servira-para-controlar-los-contratos-publicos.html

LinOxide. (2018). 2 Ways to SSH into a Running Docker Container. Recuperado de internet https://linoxide.com/linux-how-to/ssh-docker-container/

Microsoft (2019). Hive OBDC Driver. Recuperado de https://www.microsoft.com/en- us/download/details.aspx?id=40886

Medium. (2018) Some tips to run a multi-node Hadoop in Docker. Recuperado de https://medium.com/@rubenafo/some-tips-to-run-a-multi-node-hadoop-in-docker-

9c7012dd4e26

Mujumdar (2019). How HiveServer2 Brings Security and Concurrency to Apache Hive. Recuperado de https://blog.cloudera.com/blog/2013/07/how-hiveserver2-brings-security- and-concurrency-to-apache-hive/

Oracle (2018). JPS – Java Virtual Machine Process Status Tool. Recuperado de https://docs.oracle.com/javase/7/docs/technotes/tools/share/jps.html

Oracle. (s.f). ¿Qué es Big Data?. Recuperado de https://www.oracle.com/co/big- data/guide/what-is-big-data.html

Packt. (2015) Hadoop and MapReduce. Recuperado de https://hub.packtpub.com/hadoop- and-mapreduce/

Programa de transformación productiva. Formación en BigData. Recuperado de https://www.ptp.com.co/ptp-servicios/ptp-convocatorias/para-empresas/ptp-busca-60-

Raymond Tang. (2017). Default Ports Used by Hadoop Services (HDFS, MapReduce, YARN). Recuperado de https://kontext.tech/docs/DataAndBusinessIntelligence/p/default- ports-used-by-hadoop-services-hdfs-mapreduce-yarn

Red Hat. (2019). Contenedores ¿Qué es DOCKER? Recuperado de https://www.redhat.com/es/topics/containers/what-is-docker

Reíta Reyes, J. E. y Salinas Hernandez, H. J. (2016). Análisis de la viabilidad de la implementación de redes Big Data en Colombia (Tesis de pregrado). Recuperado de http://repository.udistrital.edu.co/bitstream/11349/4018/1/Big-data-FINAL-SI-1-

1%20%281%29.pdf

Rojo, A. El ciclo de Deming o círculo PDCA. Recuperado de https://www.sbqconsultores.es/el-ciclo-de-deming-o-circulo-pdca/

Stefaan Lippens (2018). Hadoop 3 default ports. Recuperado de https://www.stefaanlippens.net/hadoop-3-default-ports.html

The Apache Foundation. Licencia Apache, Versión 2.0 (2019) Recuperado de https://www.apache.org/licenses/LICENSE-2.0

Thilina Gunarathne (2015). Hadoop and MapReduce. Recuperado de https://hub.packtpub.com/hadoop-and-mapreduce/

Vidal, Palacios y Zambrano. (2013). SELENIUM MANUAL DE INSTALACIÓN Y

USO. Recuperado de

https://campusvirtual.univalle.edu.co/moodle/pluginfile.php/486657/mod_folder/content/0/ ManualSelenium.pdf?forcedownload=1

In document The value of effort (Page 139-146)