De acuerdo a la definición elaborada por la plataforma tecnológica europea NESSI (Networked European Software and Services Initiative), “Big Data” es un término que abarca el uso de técnicas para capturar, procesar, analizar y visualizar conjuntos de datos potencialmente grandes en un marco temporal razonable no accesible a las TI (Tecnologías de la Información) estándar. Dicha plataforma elaboró en diciembre de 2012 un documento (Networked European Software and Services Initiative (NESSI), 2012) con una visión muy completa desde un punto de vista técnico, legal, social y de mercado respecto del Big Data, incluyendo los principales retos identificados para conseguir una adecuada implementación que permita aprovechar las oportunidades que surgen en los distintos sectores industriales.
Si bien el término Big Data ha sido el que ha acaparado una mayor repercusión mediática, su uso ha decaído (o al menos se ha estabilizado) en los últimos tiempos en favor de otros términos que intentan recoger de una manera más adecuada la orientación actual en el ámbito del análisis de la información. Prueba de ello es la tendencia histórica de búsquedas del término “Big Data” en Google desde 2008 hasta 2018 y artículos que directamente afirman su caducidad (Park, 2019).
Figura 5 - Tendencia de búsquedas en Google del término Big Data.
En los últimos tiempos, el término Ciencia de Datos (Data Science o DS) se ha popularizado en detrimento del término Big Data por ofrecer cabida a un mayor número de conceptos relacionados con el análisis de datos y la conversión de los mismos en información para la toma de decisiones, no necesariamente en los elevados volúmenes de datos en los que se ubica el Big Data. Data Science es un término que surge de la convergencia de distintos ámbitos científicos, como se resume en la siguiente figura.
44
Data Science integra conceptos provenientes de las matemáticas, la programación y el conocimiento sectorial específico en cada ámbito productivo (el cáncer en nuestro caso). De esta forma, conceptos como la investigación con métodos estadísticos, el procesamiento de datos (del que el concepto Big Data forma parte, junto con otros como la minería de datos o Data Mining) y el aprendizaje automático o Machine Learning, forman parte de este concepto. Sin embargo, de nuevo la mediatización de esta cuestión y su rápida evolución ha provocado que los términos que más impacto estén teniendo sean aquellos que hacen referencia a una rama específica de Data Science, como el aprendizaje automático o Machine Learning (ML), que forma parte así mismo del campo de la Inteligencia Artificial (Artificial Intelligence o AI). El gran número de conceptos asociados, que hemos plasmado en la siguiente figura, y que además evolucionan en importancia mediática a lo largo del tiempo en función de los distintos desarrollos y resultados que obtienen, provoca en ocasiones una cierta confusión y complica su implementación en el ámbito sanitario.
Figura 7 – Conceptos relacionados en el ámbito del análisis de datos.
Para evitar esta confusión y manejar unas definiciones operativas en este trabajo de tesis, utilizaremos el término Data Science (DS) para referirnos al cuerpo de conocimiento científico que se centra en analizar los datos para obtener un conocimiento, a través de la descripción de los datos o la búsqueda de patrones ocultos (no evidentes) en los mismos, en línea con lo expresado en publicaciones de referencia (Provost & Fawcett, 2013). La minería de datos (Data Mining) sería parte de este campo, facilitando la extracción de conocimiento a través de la identificación de patrones, tales como asociaciones entre variables, identificación de sujetos similares a uno dado y poblaciones con un comportamiento homogéneo (clustering).
Machine Learning (ML), también denominado aprendizaje automático, ofrece métodos para extraer de los datos aquellos patrones que permitan clasificar nuevos datos recibidos. Se ha definido ML como un subconjunto de la AI que usa algoritmos que proporcionan a los computadores la capacidad de aprender sin ser explícitamente programados para ello (USAID, 2019). En este ámbito de ML, Deep Learning ofrece unos algoritmos avanzados de clasificación basadas en el concepto de red neuronal que ofrecen unos resultados muy prometedores (Rajkomar et al., 2018).
En lo relativo a la Inteligencia Artificial (Artificial Intelligence o AI), se trata de un término que con el tiempo ha ido difuminando su definición, llegando incluso a englobar procesos típicos de DS. Se ha definido la AI como el uso de computadores para la automatización de la toma de decisiones con el fin de realizar tareas que normalmente requieren de inteligencia humana (USAID, 2019). Para ello, se requieren en muchos casos otros desarrollos adicionales, como puede ser el procesado de imagen y la visión artificial (computer vision), el procesado de lenguaje natural (NLP), las infraestructuras inteligentes (habilitadas por la interconexión vía internet de objetos cotidianos, el llamado Internet of Things o IoT) y las herramientas para la potenciación de las capacidades humanas (como la realidad aumentada o AR). Las orientaciones más recientes del concepto de AI amplían notablemente su alcance, incluyendo no sólo el ámbito de los datos sino también de la robótica y de otras tecnologías inteligentes (BDVA, 2019), e identifican esta tecnología como un componente más de un concepto más amplio de salud digital (digital health) (USAID, 2019).
Big Data ofrece un soporte tecnológico a los ámbitos de Data Science, Machine Learning y AI mediante métodos y herramientas que permiten el procesado de los grandes volúmenes de información heterogénea que se producen (y son requeridos por los algoritmos que dan soporte a los ámbitos indicados), y que además se generan y se procesan a una alta velocidad para que el conocimiento extraído, la toma de decisión y la acción resultante pueda tomarse en tiempo real (o en un corto espacio de tiempo).
La necesidad de acción en el mínimo tiempo posible es una característica inherente de la asistencia sanitaria, y es de esperar que la velocidad de respuesta sea una de las características fundamentales en un futuro próximo, como algunas experiencias en el ámbito pediátrico están demostrando a través de la realización de secuenciación masiva para informar el tratamiento en el menor plazo temporal posible (Clark et al., 2019).
En resumen, para poder obtener conocimiento, predecir y tomar acciones en consecuencia a partir de los datos a través de técnicas de DS, ML y AI, hemos de tener en cuenta los requisitos de volumen, variedad y velocidad de los mismos. Si bien la definición de los distintos conceptos es dinámica, evolucionando notablemente en los últimos años, es necesario conocer
46
adecuadamente las posibilidades y los requisitos de estas tecnologías para imaginar sus posibles aplicaciones médicas, y en concreto en el ámbito oncológico.