Information Retrieval for E-Discovery
3.3 Representation
Preparación de los datos: TBSS
En último lugar se realiza el análisis estadístico sobre los mapas de anisotropía fraccional. Es en este punto en lo que más difieren ambas herramientas, ya que su enfoque
es muy distinto. En primer lugar se explicarán los pasos realizados con esta herramienta, en la siguiente sección se detallarán los procesos realizados con la herramienta SPM y en el siguiente capítulo se contrastarán una con otra.
La herramienta correspondiente para el análisis de la materia blanca en FSL se llama TBSS (tractbased spatial statistics) [35]. Nace como una alternativa muy fuerte para la comparación de mapas de FA entre individuos. Inicialmente surge ante las limitaciones que presentan los algoritmos de comparación enfocados en análisis a nivel voxel existentes hasta ese momento. Estos algoritmos son dependientes del tipo de registración utilizado, y no existe todavía un consenso en cuál es la manera de aplicarlos de manera que las conclusiones derivadas de ellos sean válidas. Los enfoques basados en vóxeles serán descritos con más detalle en el siguiente capítulo cuando se haga una revisión sobre la herramienta SPM, la cual presenta módulos especializados en el análisis a nivel vóxel.
TBSS se presenta como un método que tiene como objetivo cubrir las falencias de los algoritmos basados en comparación de vóxeles, mejorando la sensibilidad, objetividad e interpretabilidad del análisis multisujeto de las imágenes de difusión. A grandes rasgos realiza una registración nolinear seguida de proyecciones sobre una representación de tractos invariantes entre sujetos (llamado “mean FA skeleton”).
Cuenta con 4 módulos principales, que se ejecutan en un orden preestablecido sobre todos los datos a analizar. A continuación se presenta más en detalle cómo funciona el algoritmo, describiéndolo paso por paso.
TBSS_1_preproc
TBSS_1_preproc es el primer paso dentro del procesamiento. Realiza varios pasos de preprocesamiento simples, como escalar los volúmenes de las imágenes y erosionar ligeramente los mapas de anisotropía fraccional. Es muy rápido, y como resultado la imagen se ve erosionada.
Se ejecuta sobre todos los mapas simultáneamente (los cuales se encuentran previamente en una misma carpeta), se reubican en un subdirectorio llamado origdata y como salida se tienen las imágenes preprocesadas, y nuevas máscaras, los cuales se encuentran ubicados sobre una nueva subcarpeta llamada FA. Además FSL crea un nuevo directorio llamado slicedir con un archivo .html llamado index (figura 19), que permite visualizar una vista estática de las distintas imágenes de entrada para chequear que no haya problemas con el preprocesamiento.
Figura 19. Archivo index.html resultado de aplicar tbss_1_preproc
La forma de ejecutarlo es sólo por línea de comando, y no tiene más parámetros que las imágenes de entrada. Se pueden usar gramáticas regulares, así que es conveniente disponer de todos los mapas en un mismo directorio y ejecutar el comando sobre esa carpeta de la siguiente manera:
● tbss_1_preproc *.nii.gz
En la figura 20 se muestra el resultado sobre uno de los individuos. Visualmente se puede apreciar una leve erosión sobre la imagen.
Figura 20. A la izquierda se muestra el mapa de FA original, a la derecha, el mismo corte del mapa luego de la aplicación de TBSS_1_preproc
TBSS_2_reg
El segundo paso de TBSS a realizar es TBSS_2_reg. Este módulo calcula la registración nolinear a llevar a cabo, alineando todos los mapas de FA al espacio estándar 1x1x1 mm. La imagen objetivo usada en las registraciones puede ser un mapa estándar predefinido, puede ser elegido manualmente, o puede ser elegido el sujeto más típico del conjunto. La guía de uso de la herramienta recomienda el uso del espacio estándar FMRIB58_FA como imagen objetivo.
En primer lugar se realiza una registración afín, para alcanzar un alineamiento inicial. Luego se realiza una alineación no linear con grados de libertad (DoF) intermedios y es basada en deformaciones de forma libre y BSplines. FSL ha tomado esta postura, ya que su objetivo es alinear suficientemente las imágenes pero manteniendo su estructura general intacta. El objetivo de las deformaciones de forma libre es deformar una imagen moviendo puntos de control de una malla subyacente. El campo de deformación aplicado es encontrado para posiciones de la imagen entre los puntos de control de la malla usando interpolación de tipo BSpline. La deformación óptima es encontrada moviendo puntos de control de manera que el costo de la registración sea mínima.
Como se dijo antes existen 3 formas posibles de aplicar esta instancia de tbss. A continuación se muestra la forma de ejecutar este paso por línea de comando con sus respectivas opciones:
● tbss_2_reg [opción]
● Opciones excluyentes:
○ T: usar la imagen FMRIB58_FA_1mm como objetivo para las registraciones nolineares (recomendado).
○ t <objetivo>: usar la imagen <objetivo> como objetivo para las registraciones nolineares.
○ n: Encontrar el mejor objetivo entre todas las imágenes.
Nuevamente, al igual que el paso anterior, el comando se ejecuta desde la carpeta que ahora contiene las subcarpetas: origdata y FA. Como entrada se tienen las imágenes preprocesadas y como salida genera N archivos .nii (siendo N la cantidad de individuos total) por cada sujeto ( N2 archivos en total) que representan las modificaciones a realizar para alinearse con cada uno de los demás sujetos. Además hay archivos .log, .mat, y .msf por cada uno de estos archivos.
En este trabajo primero se probó con la opción recomendada (T) y se calcularon las modificaciones necesarias para alinear las imágenes con el estándar FMRIB58_FA_1mm. Luego se ejecutó el paso 3 de TBSS (el cual aplica estas transformaciones). Los resultados obtenidos no fueron favorables, resultando uno de los mapas extraño, muy alejado de la apariencia normal de un mapa de FA, en la figura 21 se puede apreciar el sujeto extraño.
Figura 21. Resultado extraño sobre uno de los mapas de FA , luego de la aplicación de tbss_2_reg con la opción T.
Debido a esto, se decidió volver unos pasos atrás y aplicar el paso tbss_2_reg con la opción n, la cual calcula las modificaciones necesarias para transformar cada sujeto en todos los demás del conjunto para luego encontrar al más típico de ellos. Como era de esperarse, esta opción es considerablemente más lenta que la anterior, incluso con 4 sujetos. En las especificaciones de la herramienta dicen tardar 10xN minutos si se utiliza la opción T y 5xNxN si se utiliza la opción n siendo N la cantidad de sujetos.
Una vez realizado este paso, si bien llevó más tiempo, los resultados obtenidos fueron más adecuados, y visiblemente de mejor calidad.
TBSS_3_postreg
En este paso se aplican las transformaciones nolineales encontradas en el paso anterior sobre todos los individuos y luego se aplica una transformación afín para llevarlas al espacio MNI152 1x1x1mm. Luego se concatenan todas las imágenes generando una imagen 4D llamada all_FA en un nuevo subdirectorio llamado stats en el que cada volumen corresponde a un individuo.
Además se crea un nuevo archivo llamado mean_FA con el promedio de todas las imágenes de FA. Para poder crearlo, la herramienta simplemente promedia las imágenes. La imagen resultante se ve más suavizada y menos nítida (figura 22) como resultado de esta operación.
Figura 22. A la izquierda se ve el mapa de uno de los pacientes. A la derecha el mismo corte de la imagen mean_FA.
Luego, a partir de mean_FA, se genera el archivo mean_FA_skeleton. Este esqueleto busca representar los tractos que son comunes a todos los sujetos y los representa como una línea o superficie que recorre el centro del tracto original. Para poder generar este esqueleto, la herramienta realiza una búsqueda y filtrado de los vóxeles con mayor FA a lo largo de líneas transversales a cada tracto. Para ejecutar este módulo se utiliza el siguiente comando: ● tbss_3_postreg [opción] ● Opciones excluyentes:
○ S : Derivar mean_FA y mean__FA_skeleton del promedio de los sujetos del estudio (recomendado)
○ T : Utilizar FMRIB58_FA y su esqueleto en lugar de los derivados del estudio.
Las salidas generadas por este comando (descritas anteriormente) son las siguientes:
● mean_FA ● all_FA
● mean_FA_skeleton
En este trabajo se utilizó la opción recomendada S. Como en el paso anterior se había elegido la opción n, en el momento de registrar las imágenes primero se debe
encontrar al sujeto “más típico” del conjunto. Para lograrlo, la herramienta registra cada sujeto con los demás, resume cada campo de deformación por su desplazamiento medio y elige el sujeto con menor distancia promedio a los demás sujetos.
Como se dijo anteriormente, una vez alineadas las imágenes, se concatenan generando el archivo all_FA, se genera el archivo mean_FA con las imágenes promediadas y se genera el esqueleto promedio.
En la figura 23 se encuentra el esqueleto mean_FA_skeleton, umbralado y dispuesto sobre uno de los volúmenes de all_FA.
Figura 23. En verde se ve la imagen mean_FA_skeleton, con sus valores comprendidos entre 0.25 y 0.6, se encuentra superpuesto sobre la imagen all_FA
Luego de realizar este paso, y como chequeo de calidad, se comprobó que el esqueleto esté bien alineado con los tractos principales de materia blanca de todos los pacientes. Se ve algo tortuoso, en especial cuando no es recto, esto se debe a que el algoritmo que genera el esqueleto, encuentra ciertas dificultades en determinar una línea perpendicular a los tractos cuando estos se curvan.
TBSS_4_prestats
Este es último paso dentro del módulo tbss y lo que hace, en líneas generales, es umbralar la imagen mean_FA_skeleton y encontrar el esqueleto en cada imagen individual.
En este momento se proyectan las imágenes de FA perteneciente a cada sujeto en el esqueleto mean_FA_skeleton. El objetivo en este momento es considerar desajustes residuales entre los sujetos después de los registros no lineales iniciales. En cada punto del
esqueleto, se busca para todas las imágenes del conjunto, el máximo valor de FA en el camino perpendicular a cada tracto (mismo proceso realizado para crear el esqueleto promedio) y se asigna ese valor de FA al voxel del esqueleto. Este proceso logra un alineamiento entre el esqueleto y las imágenes de FA de cada sujeto sin necesidad de una preregistración nolinear perfecta. Cualquier diferencia sistemática en la localización exacta del lugar del tracto entre grupos de sujetos no sesgará la comparación de los valores de FA entre los grupos.
Para ejecutar este paso se utiliza el siguiente comando: ● tbss_4_prestats <threshold>
Siendo el threshold recomendado algún valor entre 0.2 y 0.3 en este caso se eligió 0.27. Como salida genera los archivos: ● all_fa_skeletonised ● mean_fa_skeleton_mask ● mean_fa_skeleton_mask_dst
El archivo mean_fa_skeleton_mask_dst corresponde a un mapa de distancias entre los tractos del esqueleto y los demás vóxeles de la imagen, y es de utilidad para la proyección de los distintos individuos al esqueleto principal.
En la figura 24 se muestra la proyección de uno de los pacientes al esqueleto. Para cada uno de los volúmenes la estructura del esqueleto sigue siendo la misma, lo que varía en todos ellos son los valores de FA correspondientes a cada vóxel de la imagen.
Figura 24. En la figura se muestra uno de los volúmenes correspondientes a all_fa_skeletonised
En este punto, ya están los datos listos para realizar comparaciones entre sujetos o grupos. Cada imagen de FA correspondiente a los sujetos del estudio ha sido pre alineada a un espacio común usando registración no lineal, un esqueleto común ha sido formado y cada imagen individual ha sido totalmente alineada a éste. Los datos aptos para el análisis estadístico están de la forma de una imagen 4D, siendo la 4ta dimensión el id del paciente. Sólo resta comparar los esqueletos entre ellos a nivel voxel.
Comparación entre hemisferios en TBSS
FSL cuenta también, dentro del módulo tbss, con una herramienta para facilitar la comparación entre hemisferios cerebrales de un paciente. En el trabajo de investigación que se busca replicar parcialmente en este trabajo, se buscaba realizar comparaciones de los mapas de FA, entre hemisferios, para poder así delimitar la zona afectada por la enfermedad. Por eso, es de importancia destacar que en esta herramienta también se cuenta con las facilidades para poder realizarlo.
El workflow para llevar a cabo una comparación interhemisférica es similar al realizado para el análisis de grupos. Luego de realizar los 4 pasos correspondientes a TBSS, se utiliza el script tbss_sym. Este script genera una imagen de FA promedio (mean_FA) simétrica y, a partir de esta, se calcula el esqueleto derivado.
El proceso, resumido, es el siguiente: el esqueleto asimétrico precalculado en los pasos anteriores es levemente dilatado. Luego la imagen de FA promedio (mean_FA) es generada, invirtiendo sagitalmente la imagen promedio precalculada y calculando el promedio entre ambas (original e invertida). A partir de esta imagen se genera un nuevo esqueleto provisorio, el cual es enmascarado por el esqueleto dilatado original. Este paso se lleva a cabo para evitar incluir en el estudio aquellas zonas cerebrales lejos de ser simétricas en un primer momento. Por último, y para descartar las asimetrías restantes, el esqueleto simétrico se invierte respecto al eje sagital y se enmascara con su versión invertida.
En un paso siguiente, los mapas de FA de todos los individuos son proyectados en este nuevo esqueleto simétrico, permitiendo así el análisis entre hemisferios. Por último, y para facilitar el análisis posterior, se realiza una nueva imagen 4D llamada all_FA_skeletonised_left_minus_right, la cual contiene en sus vóxeles el valor correspondiente a la diferencia de intensidades entre hemisferios.
GLM y randomise
El próximo y último paso en el procesamiento y análisis de las imágenes, es sacar conclusiones sobre sus características, comparándolas en dos grupos separados.
Para el cálculo de estadísticas se usan en conjunto dos herramientas de FSL: GLM y randomise. La primera es utilizada para diseñar el análisis por medio de matrices y la segunda realiza las comparaciones pertinentes.
GLM
Esta herramienta debe su nombre al modelo lineal generalizado (General linear model) [36] y es una ayuda para el diseño y creación de las matrices correspondientes para el posterior análisis estadístico. Su uso no es esencial, pues las matrices pueden ser creadas manualmente sin problemas, pero sirve para evitar errores de diseño que podrían ser difíciles de detectar y podrían llevar a resultados inesperados o no deseados.
Presenta una interfaz de usuario para su uso que da la posibilidad de elegir el tipo de diseño a realizar, el número de entradas (individuos) en el estudio, permite agrupar estos individuos en distintos grupos y realizar distintas comparaciones entre estos grupos.
Para este estudio, se realizó la comparación entre dos grupos de dos sujetos cada uno: el primer grupo con los pacientes P1 y P2 y el segundo con los pacientes P3 y P4. Las pruebas elegidas para llevar a cabo fueron únicamente la comparación entre grupos de los valores de FA de los tractos de materia blanca. En otra palabras, encontrar en cuáles píxeles del esqueleto los valores del grupo A eran considerablemente mayores que los del grupo B y viceversa.
Figura 25. Resumen del diseño estadístico generado con GLM.
Como se puede apreciar en la figura 25, el diseño del análisis es muy simple. La creación de grupos fue arbitraria y sólo se eligieron los contrastes de comparación de
valores de intensidad. Para este caso en particular no era de utilidad realizar otro tipo de comparaciones. Para realizar otro tipo de estudios más completos, se pueden crear distintos grupos entre los pacientes teniendo en cuenta distintos factores tales como la edad, el género, la presencia de alguna habilidad, entre otros. En este caso se decidió un modelo simple ya que el objetivo era conocer el método a aplicar y las herramientas y no realizar una investigación exhaustiva sobre los pacientes del grupo.
Randomise
Una vez generado el diseño del análisis a realizar, se utilizó el módulo de FSL randomise [36] para poder llevar a cabo las comparaciones. Randomise es una herramienta de FSL para inferencia de permutación (permutation inference) para imágenes neurológicas. A continuación se muestra el uso del script: ● randomise i <input> o <output> d <design.mat> t <design.con> [options] Argumentos obligatorios: ○ i <input> Imagen 4D de entrada ○ o <out_root> Nombre base de la salida
Presenta un alto número de argumentos opcionales, que no se detallan aquí, pero que se encuentran documentados en el sitio de la herramienta. Para este estudio, el script randomise se utilizó de la siguiente manera:
● randomise i all_FA_skeletonised.nii o tbss m mean_FA_skeleton_mask d design.mat t design.con c 1.5
Donde m es la máscara que indica qué vóxeles se van a comparar, d es la matriz de diseño y t el archivo de contraste. Además se eligió la opción c ( umbralado basado en clúster) con un valor 1.5, el cual es recomendado para este estudio en particular, debido a la cantidad de pacientes. Como archivos de salida se tienen: ● <BaseName>_tstat1.nii ● <BaseName>_tstat2.nii ● <BaseName>_clustere_corrp_tstat1.nii ● <BaseName>_clustere_corrp_tstat2.nii
Los primeros dos archivos corresponden a las comparaciones crudas. Sus vóxeles representan las diferencias entre ambos grupos: <BaseName>_tstat1.nii se corresponde al primer contraste (vóxeles en los que los valores de FA del grupo 1 superan a los del grupo 2) y <BaseName>_tstat2.nii al segundo contraste (vóxeles en los que los valores de FA del grupo 2 superan a los del grupo 1). Los últimos dos archivos son un filtrado sobre los resultados crudos, representando sólo aquellos vóxeles que se encuentran en agrupamientos de cierto tamaño. En la figura se ven los resultados obtenidos mediante el uso del script randomise. Figura 26. En azul se puede ver la imagen <BaseName>_tstat2.nii, representando las diferencias de FA entre ambos grupos. En rojo se ve la imagen <BaseName>_clustere_corrp_tstat2.nii, correspondiente a un valor de umbral de 1.5
Por último, cabe destacar que esta herramienta cuenta con facilidades para umbralar el mapa estadístico obtenido, o para engrosar aquellas secciones en las que se presentan diferencias, para lograr una visualización más clara.
Capítulo 5: SPM
Sobre la herramienta
El paquete de software SPM fue desarrollado por el Wellcome Trust Centre for Neuroimaging (Londres) y ha sido diseñado para el análisis de secuencias de imágenes neurológicas. Las secuencias pueden ser serie de imágenes de distintos grupos de personas o del mismo individuo en distintos momentos.
La versión actual está diseñada para el análisis de imágenes del tipo fMRI, PET, SPECT, EEG y MEG y está completamente disponible en la comunidad de neuroimagen, promoviendo la colaboración y el análisis conjunto entre laboratorios. Su enfoque es basado en vóxeles (voxelbased), y emplea la inferencia clásica, para hacer algún comentario sobre respuestas específicas regionalmente a factores experimentales.
Es un conjunto de funciones y subrutinas de MATLAB (The MathWorks, Inc) con algunas rutinas escritas en C y compiladas externamente. Funciona sobre las plataformas