6.5 The Pythia Framework Functionality
6.5.1 Signatures
En el entorno empresarial híper competitivo de hoy, las empresas no sólo tienen que encontrar y analizar los datos relevantes que necesitan, también deben hacerlo rápidamente. La visualización ayuda a las organizaciones a realizar análisis y tomar decisiones mucho más rápido, pero el reto es, pasar a través de los escarpados volúmenes de datos y acceder al nivel de detalle necesario, todo a una alta velocidad. El desafío sólo crece a medida que aumenta el grado de granularidad. Una posible solución está en el hardware. Algunos vendedores están utilizando más memoria y procesamiento potente en paralelo para procesar grandes volúmenes de datos extremadamente rápido. Otro método es poner datos en memoria, pero utilizando un enfoque de computación en red, donde se utilizan muchas máquinas para resolver un problema. Ambos enfoques permiten a las organizaciones explorar grandes volúmenes de datos y obtener información del negocio en tiempo casi real.
1.11.2 Comprender los datos
Se necesita mucho entendimiento para obtener los datos en la forma correcta, para que pueda utilizar la visualización como parte del análisis de datos. Por ejemplo, si los datos provienen de contenidos de redes sociales, lo que se necesita saber es quién es el usuario en un sentido general - como un cliente que usa un conjunto específico de productos - y entender qué es lo que se está tratando de visualizar por encima de los datos. Sin algún tipo de contexto, es probable que las herramientas de visualización sean de menor valor para un usuario.
Una solución a este reto es contar con experiencia adecuada para el dominio en cuestión. Se debe asegurar que las personas que analizan los datos tengan un profundo conocimiento de la fuente de los datos, qué público consumirá estos datos y cómo ese público va a interpretar la información.
1.11.3 Hacerle frente a la calidad de datos
Incluso si se pudieran encontrar y analizar datos de manera rápida y ponerlos en el contexto adecuado para la audiencia que consumirá la información, el valor de los datos para la toma de decisiones estará en peligro si los datos no son acertados u oportunos. Este es un reto con cualquier análisis de datos, pero cuando se consideran los volúmenes de información que participan en proyectos de Big Data, se vuelve aún más pronunciado. Una vez más, la visualización de datos sólo demostrará ser una herramienta valiosa si la calidad de los datos está asegurada. Para solucionar este problema, las empresas necesitan tener implementado un gobierno de datos o proceso de gestión de la información, para garantizar que los datos estén limpios. Siempre es mejor tener un método proactivo para abordar los problemas de calidad de datos, y así garantizar que no surjan problemas en el futuro.
1.11.4 Mostrar resultados significativos
Dibujar puntos en un gráfico para efectuar un análisis se vuelve una tarea difícil cuando se trata de cantidades muy grandes de información, o de una amplia variedad de categorías de información. Por ejemplo, imagine que tiene 10 mil millones de filas de datos SKU (números de referencia de producto) de venta que está tratando de comparar. El usuario que intente ver 10 mil millones de puntos en la pantalla tendrá serias dificultades para verlos. Una manera de resolver esto es agrupar datos en una vista de alto nivel, donde se puedan visualizar grupos más pequeños de datos. Al agrupar los datos en conjuntos, estos se pueden visualizar de forma más eficaz.
1.11.5 Trabajar con valores atípicos
Las representaciones gráficas de los datos son posibles debido a que la visualización puede comunicar tendencias y valores extremos mucho más rápido que las tablas que contienen números y texto. Los usuarios pueden detectar fácilmente los problemas que necesitan atención simplemente mirando un gráfico. Los valores atípicos representan entre el 1% al 5% de los datos, pero cuando se trabaja con grandes cantidades de datos, ver del 1% al 5% de los datos es complejo. ¿Cómo representar esos puntos sin tener problemas con la graficación? Las soluciones posibles son: eliminar los valores atípicos de los datos (y por tanto de la tabla) o crear una tabla separada para los valores atípicos. Se puede también desecharlos para ver, ya sea la distribución de los datos, o los valores atípicos. Aunque los valores extremos pueden no ser representativos, también pueden revelar ideas inéditas y potencialmente valiosas. [FBDCS13]
1.12 Riesgos y vulnerabilidades
Big Data ha recibido mucha publicidad recientemente - y con toda razón. Con la enorme cantidad de datos disponibles hoy en día, podemos hacer mucho más de lo que se pudo haber imaginado en décadas anteriores. Pero hay otra cara
de Big Data, y es que las empresas ahora tienen que gestionar algunos riesgos bastante grandes.
Es difícil de visualizar la cantidad de datos de los cuales estamos hablando. Pero como fue publicado en un artículo, "Tan sólo en 2011, se crearon 1,8 zettabytes (o 1,8 billones de gigabytes) de datos, esto equivale a como si todos los ciudadanos estadounidenses escribieran 3 tweets por minuto durante 26.976 años." Y se prevé que esta cifra crezca en una magnitud de 50 veces para el año 2020 [BDBFBRT13].
Tanta cantidad de información conlleva ciertos riesgos, a saber:
1.12.1 1: La pérdida de agilidad
Normalmente, en una organización grande (más de 200 trabajadores y activos por más de COP 19’330.500.000), los datos se alojan en múltiples plataformas. Hay datos de transacciones, correos electrónicos, datos de análisis, entre otros. La administración quiere que las personas sean capaces de localizar, analizar y tomar decisiones rápidamente, basadas en estos datos. Es una necesidad en el mercado actual donde las condiciones pueden cambiar inmediatamente. Pero si los datos no se organizan, evalúan, y almacenan correctamente, la información crítica puede ser difícil o imposible de encontrar - ralentizando el negocio en momentos en los cuales la velocidad es esencial. [BDBFBRT13]
1.12.2 2: Incumplimiento regulatorio
Las leyes son cada vez más y más exigentes en relación con el tiempo en el que empresas deben conservar los datos, de qué forma y dónde.
No es extraño que los entes regulatorios realicen auditorías al azar para examinar las políticas de una empresa con respecto a los datos, y su gestión real sobre ellos. Un incumplimiento regulatorio puede derivar en multas significativamente altas o en daño a la reputación. [BDBFBRT13]
1.12.3 3: La pérdida de la seguridad
Con cada vez más datos situados en más lugares que nunca, y moviéndose constantemente entre sí, también hay un gran aumento en las posibilidades de hackear dichos datos. Una brecha de seguridad puede derivar en robo, fraude, multas, y desde luego, en pérdida de reputación. Ninguna empresa quiere aparecer en la portada del Wall Street Journal porque sus datos han sido hackeados. [BDBFBRT13]
1.12.4 4: Pérdida de dinero
A medida que la cantidad de datos crece, es demasiado tentador simplemente lanzarle más servidores al problema. Después de todo, el almacenamiento es barato. Sin embargo, hay que tener en cuenta algo: cierta empresa decía necesitar todo un data center nuevo para alojar sus datos. La empresa SunGard Availability Services realizó algunos estudios y encontraron que, no sólo no necesitan un nuevo data center, sino que en realidad necesitan sólo la mitad de
su almacenamiento actual, porque simplemente no estaban manejando bien sus datos. Un servidor puede parecer barato a primera vista, pero nunca se debe asumir que el almacenamiento es barato.
Big Data es algo bueno. Sin duda alguna. Pero los riesgos de Big Data no son tan buenos. Las empresas de hoy necesitan gestionar sus datos para minimizar su riesgo. Esto implica tener políticas que cumplan con los estándares regulatorios, procesos que cubran todas las eventualidades, programas actualizados de retención de información, y una autoevaluación constante para determinar qué datos son necesarios para el adecuado funcionamiento de la empresa.
Las empresas que con mayor eficiencia administren y alojen sus datos, serán las más ágiles, las que más cumplan con las regulaciones vigentes, las más seguras y por consiguiente, las más rentables. [BDBFBRT13]
2.1 Descripción del tema de investigación
Hoy en día es prioridad en las organizaciones contar con herramientas tecnológicas que les permita mejorar la calidad de sus procesos de negocio con el fin de ser competitivos y participar en forma eficiente y eficaz en los mercados globalizados.
Las empresas, en busca de un contexto de menor coste, esfuerzo y mayor garantía, están en la búsqueda constante de nuevas herramientas que les permita contar con predicciones más acertadas sobre los comportamientos de su entorno y de los procesos de negocio, con base en información oportuna para la toma de decisiones, contando con la flexibilidad requerida por la demanda del negocio y oportunidad para acceder a la información desde cualquier lugar y en cualquier momento.
Para conseguirlo, las empresas necesitan apoyarse en tecnologías innovadoras que les permita el alcance de sus objetivos de negocio, ajustados a las nuevas realidades de un mercado global; es aquí donde aparece Big Data, para apalancar a las empresas en esta tarea.
Es evidente que esta tecnología se convierte en una herramienta de gran importancia para competir en la economía actual, y las empresas colombianas reconocen su importancia. Por tal motivo, están en una constante exploración y análisis que permita su adopción, en la medida de necesidades y capacidades propias de la empresa.