Results and discussion - Towards more robust and efficient methods for the calculation of Prote

Uno de los inconvenientes asociado a la implementación de un algoritmo de estas caracter´ısticas es la gran latencia que supone la integración de las ecuaciones de movimiento de cada una de las part´ıculas. Es por ello que uno de los aspectos novedosos del algoritmo DEM aqu´ı presentado es haber sido diseñado para ser ejecutado en paralelo, sobre GPU. Esto permite simular sistemas pequeños, en número de part´ıculas, en tiempos de ejecución muy cortos o, por el contrario, simular sistemas grandes, del orden de hasta un millón de part´ıculas, en tiempos razonables (impensables empleando un método secuencial). Una de las partes más importantes de este trabajo es la implementación de nuevas funcionalidades y la optimización del algoritmo DEM desarrollado por Hidalgo et al. [25]. En esta sección se detallan rasgos caracter´ısticos de la implementación del algoritmo DEM construido con CUDA.

Tal y como ocurre en la mayor´ıa de las aplicaciones GPGPU ciertas partes del algoritmo se llevan a cabo sobre la CPU mientras que otras se ejecutan en la GPU. En Fig. 3.1 se muestra el diagrama de flujo del m´etodo implementado, donde todos los procesos que se ejecutan en la CPU han sido marcados en cuadros de trazo continuo, mientras que las rutinas que se realizan en paralelo, sobre la GPU, se marcan con l´ıneas de trazos.

Este código ha sido implementado empleando el lenguaje C/C++ con la extensión CUDA de NVIDIA. El programa comienza con la inicialización del driver de CUDA, necesario para tener acceso a las utilidades de GPU. Debido a la existencia de esa duplicidad de memoria, diferentes regiones para GPU y CPU, el diagrama de flujo de Fig. 3.1 continúa con la declaración y reserva de memoria de todas las variables para ambos, host y device. La inicialización de los parámetros y rasgos de cada part´ıcula se hace a través de la asignación de valores a las variables de CPU para, más tarde, ser transferidas a las correspondientes variables de GPU a través de la función cudaMemcpy de CUDA.

Finalizada la puesta a punto de la configuración inicial del sistema, da comienzo el bucle temporal del algoritmo DEM. Ya se ha indicado que la integración de las ecuaciones de movimiento traslacional se realiza mediante un integrador tipo Velocity Verlet [24]. Este método realiza la integración en dos etapas. Al comienzo del bucle temporal, toma las aceleraciones obtenidas para cada part´ıcula en la iteración anterior, y calcula la velocidad en la mitad de la presente iteración, además de la posición actual de las part´ıculas. La segunda etapa es ejecutada al final de la iteración, calculando sólo la velocidad de las part´ıculas al final del intervalo.

En ambos casos la forma de proceder para su implementación sobre GPU es semejante. Para aprovechar la potencia de las funciones implementadas en la librer´ıa Thrust [26], se construye des- de la CPU una estructura de datos relacional propia, en la que para cada part´ıcula se genera una nueva tupla o tanda de datos que almacena su aceleración, velocidad y posición. Posteriormente, se traspasa el control a la GPU, y esta, a través de un iterador de Thrust, integra la ecuación Ec. 3.1 en paralelo, asignando las part´ıculas a diferentes threads.

La gran ventaja de usar los iteradores de la librer´ıa Thrust es que el número de hilos y bloques está completamente optimizado: en tiempo de cálculo, de acuerdo al número de tuplas y la complejidad de la función, se decide la cantidad de bloques y threads por bloque que se ejecutarán. Sin embargo, la gran limitación de esta metodolog´ıa es que el tamaño total de las tuplas es muy restrictivo, limitando el tipo de funciones que pueden paralelizarse de este modo.

Figura 3.1: Diagrama de flujo del algoritmo DEM implementado. Por defecto, debe entenderse que todas las funciones se ejecutan en la CPU. S´olo se ejecutan en paralelo sobre la GPU, las tareas que aparecen en cajas sobrepuestas con trazo discontinuo. En cada caso se muestra el n´umero de threads, el cual var´ıa de unos kernels a otros.

en eficiencia, se debe detectar los pares de part´ıculas susceptibles de producir una colisión. Esto se implementa haciendo uso de una lista de vecinos, diseñado a partir de un método tipo link cell [11] ofrecido por por el Toolkit de NVIDIA. Puesto que en el método DEM todas las part´ıculas cambian su posición en cada iteración temporal, la lista deber´ıa ser actualizada continuamente. Sin embargo, nuestro método está optimizado de modo que, en función de la densidad del medio granular, y de la discretización temporal, dt, que se esté empleando, se fija un número de ite- raciones para actualizar la lista. Por ejemplo, en sistemas muy comprimidos, la lista de vecinos de una part´ıcula puede no variar en absoluto durante toda la simulación. Por el contrario, en sistemas muy diluidos, puede darse el caso extremo en que sea necesaria la actualización de la lista constantemente.

Finalizado el proceso de detección de colisiones, Fig. 3.1, el algoritmo continúa con la ejecución de colisiones. Cada part´ıcula recorre su lista de vecinos tratando de calcular la fuerza y el torque que cada uno de esos posibles contactos ejerce sobre ella. Al terminar de recorrer su lista, se actualizan los nuevos valores de aceleración lineal y angular.

A la hora de caracterizar un sistema de part´ıculas con DEM es necesario fijar, por una parte, el número de celdas en que será dividido el espacio de cálculo y, por otro lado, la relación que hay entre los volúmenes de cada una de estas casillas y el volumen de una part´ıcula. De hecho, la elección de estos dos parámetros es un factor que influye en la eficiencia del método DEM sobre GPU en varios puntos del método. Aunque en este trabajo no se muestra un estudio comparativo sobre el impacto que ocasiona la elección de diferentes tamaños de celda y part´ıcula, el criterio utilizado parece ser el más eficiente. De cara a optimizar la tarea asignada a cada warp, el número de celdas siempre se escoge como una potencia de 2. Además, para minimizar el coste computacional en la detección de vecinos y ejecución de colisiones el volumen de las part´ıculas es siempre inferior al de la celda, lo cual suele revertir en un número de part´ıculas que también es un múltiplo del tamaño del warp. Tanto la detección como la ejecución de colisiones se han implementado en CUDA con kernel estándar. En el caso de detección de colisiones el número de bloques e hilos se han ajustado en base al número de celdas en que se ha dividido todo el volumen de cálculo. Sin embargo, en el proceso de ejecución de colisiones estos parámetros se han obtenido a partir del número de part´ıculas que se están simulando.

In document Towards more robust and efficient methods for the calculation of Protein-Ligand binding affinities (Page 35-39)