CODE COURSE NAME UNITS CREDIT

LEVEL II: The candidate shall take all core courses and one elective making 14 units

4.4.1 Introducci´on

Las GPUs actuales requieren realizar una copia de memoria desde el Host hasta la GPU para poder trabajar. Dicha copia se realiza a través del puerto PCIe. Para obtener un buen rendimiento mediante PCIe se deben utilizar pocas y grandes copias de memoria en vez de muchas y pequeñas copias. Este suceso se produce por el coste que conlleva reprogramar sucesivamente una DMA, as´ı como el propio funcionamiento del puerto PCIe. La construcción de un buffer de flujos resulta necesaria para poder minimizar los costes de transferencia a la GPU.

En esta secci´on se explica la interfaz creada ente la GPU y el constructor de flujos para procesar un bloque de paquetes.

4.4.2 Implementaci´on

El módulo implementado ofrece una API por la cual requiere una inicialización y configuración. La API construida incluye una función por la cual el módulo es informado de un nuevo flujo exportado. A partir de este punto, se procede a almacenar el flujo en memoria dentro de un buffer. No obstante, debido a la implementación del módulo clasificador, no basta con un úni- co buffer sino que es requerido un conjunto fijo de buffers (ver sección 4.5 para más información). Para solucionar el problema de los múltiples buffers se plantea un anillo como estructura de datos de almacenamiento. En esta estructura se mantendrá un buffer activo en donde se escribirán los nuevos flujos entrantes. Al llenar el buffer activo, se informará a la GPU de que un nuevo buffer está listo. En ese momento el buffer activo será marcado como ocupado, y el siguiente buffer del anillo se marcará como el nuevo buffer activo. Simultáneamente, la GPU informará al terminar de utilizar un buffer. Por el funcionamiento del módulo de clasificación, la GPU copia los resultados de la clasificación en el buffer que conten´ıa los flujos originales. Es por tanto, tarea de este módulo, utilizar los resultados antes de marcar el buffer como libre y reutilizarlo. En la sonda realizada, el módulo guarda en disco los resultados para una posterior verificación. Sin embargo, es importante tener en cuenta que se podr´ıan realizar diferentes ac- ciones, como pipes o la propia red, para informar a un dispositivo acerca del tráfico del enlace. (Fig. 4.12).

A pesar de todo, puede sufrirse un degradamiento del rendimiento debido a la transferencia de memoria entre el Host y la GPU. Para resolver este problema, CUDA ofrece los conocidos streams. Un stream de CUDA, puede transferir memoria en paralelo mientras se ejecuta código tanto en el Host como en la GPU. Esto es posible gracias al dispositivo DMA, ofreciendo un mejor rendimiento al sistema. A pesar del buen rendimiento ofrecido, los CUDA streams poseen ciertos requisitos. El más importante radica en la memoria del Host. Los flujos retransmitidos deben encontrarse contiguos en memoria especial. Esta memoria es conocida como page-locked memory o pinned memory. Para obtener dicha memoria se ha optado por la utilización de las Hugepages ofrecidas por la API de Intel DPDK. Su utilización rompe el esquema de independencia entre módulos planteada inicialmente, sin embargo, se ha considerado que la utilización de dicha memoria supone un rendimiento y simplicidad superior a la memoria ofrecida por la API de CUDA cuyo uso también romper´ıa la independencia modular.

Clasificaci´on de flujos en 10G ethernet mediante Intel DPDK y GPUs

export_flow

Se copia el payload

dentro del buffer Retornar

Hay espacio disponible

Clasificación dentro de la GPU Se envía al módulo GPU un bloque de flujos El buffer está lleno Se almacenan los resultados en Disco o tmpfs Se obtiene el buffer actual desde el anillo

Figura 4.12: Exportando flujos a la GPU : Comunicaci´on con la GPU

Independientemente de la fuente de la memoria utilizada, existe un problema. La forma mas eficiente de gestionar un buffer es mediante punteros a cada flujo exportado. No obstante, la condición de flujos contiguos en memoria implica que la implementación mencionada no sea viable. Por ello, se debe reservar gran cantidad de memoria por cada buffer y realizar numerosas copias de flujos al mismo. Aunque la implementación del módulo resulta sencilla, es importante tener en cuenta el coste que estas copias pueden conllevar al rendimiento global de la sonda.

4.4.3 Pruebas y resultados

Debido a la simplicidad del módulo y a su dependencia con el resto de módulos, solo se han realizado pruebas de validación, ya que medir el rendimiento del mismo de forma unitaria resulta dif´ıcil. Medir este rendimiento impondr´ıa, a su vez, un coste computacional adicional a la sonda. Tras la integración no ha detectado un coste computacional significativo frente al resto de módulos. El funcionamiento del módulo ha sido verificado.

4.4.4 Conclusiones

La construcción del modulo de buffering ha sido esencial en la integración entre los módulos de clasificación y construcción de flujos. Este hecho ha impedido en gran medida cumplir con los requisitos generales de independencias entre módulos. En cambio, las decisiones tomadas en la construcción del módulo han sido enfocadas de forma casi exclusiva a una optimización del rendimiento.

Una vez comprendido el módulo de buffering y su utilidad, es posible centrarse en el módulo clasificador y en su arquitectura. Ambos se presentan y explican en la siguiente sección.

In document PROSPECTUS 2014/2015 (Page 104-106)