• No results found

5. Conclusion

5.1 Future Work

Un sistema de detección de intrusos que clasifica los datos auditados como normales o anómalos basados en un conjunto de reglas, patrones y otras técnicas afiliadas puede ser ampliamente definido como un sistema de detección de intrusos basado en clasificación. Este proceso de clasificación típicamente implica los siguientes pasos:

1. Identificar atributos de clases y clases de los datos de entrenamiento. 2. Identificar atributos para la clasificación.

3. Adquirir un modelo usando los datos de entrenamiento.

4. Usar el modelo adquirido para clasificar las muestras de datos desconocidos.

Una variedad de técnicas de clasificación han sido propuestas en la literatura. Estas incluyen técnicas inductivas de generación de reglas, lógica difusa, algoritmos genéticos y técnicas basadas en redes neuronales.

► Algoritmos inductivos de generación de reglas implica la aplicación de un conjunto de

reglas de asociación y patrones de eventos frecuentes para clasificar los datos revisados. En este contexto, si una regla declara que: “si el evento X ocurre, entonces el evento Y es probable que ocurra”, estos eventos X y Y pueden ser descritos como un conjunto de pares (variable, valor) donde el objetivo es encontrar los conjuntos X y Y tal que X implique Y. En el dominio de la clasificación, se fija Y y se intenta encontrar un conjunto de X el cual sea buen predictor para la clasificación correcta. Mientras que la clasificación supervisada deriva solamente reglas para un solo atributo, las técnicas inductivas de generación de reglas, las cuales son por lo general no supervisadas, derivan reglas relacionadas con alguno o todos los atributos.

Por ejemplo, los algoritmos RIPPER (Cohen, 1995) y C4.5 directamente inducen reglas desde los datos empleando el método “divide y vencerás”. RIPPER ha sido exitosamente usado en un número de algoritmos de detección de anomalías basados en “minería de datos” para clasificar datos auditados entrantes y detectar intrusos. Unas de las ventajas primarias de usar RIPPER es que genera reglas que son fáciles de usar y verificar. Lee y otros.(Lee and Stolfo, 1998, Lee et al., 1999) usa RIPPER para caracterizar ocurrencias de frecuencias en datos normales por un conjunto pequeño de reglas que capturan los

elementos comunes en estas secuencias. Durante el monitoreo, las secuencias que violan estas reglas son tratadas como anomalías.

Un número elevado de este tipo de algoritmo ha sido propuesto en la literatura. Algunos de estos construyen un árbol de decisión5 y entonces extraen un conjunto de reglas de clasificación del mismo. La ventaja de usar reglas es que estas tienden a ser simples e intuitivas, no estructuradas y menos rígidas, pero son también difíciles de mantener y en algunos casos, son inadecuadas para representar varios tipos de información.

► Las técnicas de lógica difusa (fuzzy) han estado en uso en el área de redes y

computadoras desde la pasada década del 1990. Estas técnicas han sido usadas para la detección de intrusos por dos razones primarias (Bridges and Vaughn, 2000). Primeramente, por varios parámetros cuantitativos que son usados en el contexto de la detección de intrusos, Ej. Tiempo de uso de la CPU, intervalos de conexión, entre otros, que pueden ser potencialmente vistos como variables difusas. En segundo lugar, como afirma Bridges y otros. (Bridges and Vaughn, 2000), el concepto de seguridad es propiamente difuso. En otras palabras, el concepto de fuzzy contribuye a allanar la separación abrupta del comportamiento normal y el anormal. Es decir, un determinado punto de datos que quedan fuera / dentro de un intervalo ''normal'' definido, se considerará anómalo / normal en el mismo grado, independientemente de su distancia dentro / fuera del intervalo. Dickerson y otros. (Dickerson and Dickerson, 2000) desarrolló el Motor de Reconocimiento Fuzzy de Intrusos, por sus siglas en inglés (FIRE), utilizando conjuntos y normas fuzzy. FIRE utiliza técnicas simples de minería de datos para procesar los datos de

5

…árbol de decisión es una poderosa y popular herramienta para la clasificación y predicción. Este método está dado en gran parte a la representación de reglas. Un árbol de decisión tiene tres componentes fundamentales: nodos, arcos y hoja. Cada nodo es designado con un atributo destacado el cual es el más informativo entre los atributos aún no considerados en el camino desde la raíz, cada arco fuera de un nodo es designado con un valor destacado por la característica del nodo y cada hoja es designada con una categoría o clase. Un árbol de decisión es usado entonces para clasificar puntos de datos comenzando por una raíz del árbol y moviéndose a través de esta hasta que un nodo hoja sea alcanzado. El nodo hoja puede entonces proveer la clasificación de los puntos de datos.

entrada de la red y generar conjuntos fuzzy para cada característica observada. Los conjuntos fuzzy son entonces usados para definir las reglas fuzzy en la detección de ataques individuales. Este sistema no estableció ningún tipo de modelo representativo del estado presente del sistema, pero en cambio se apoyó en reglas de ataques específicos para la detección. Más bien, FIRE crea y aplica reglas de lógica difusa en los datos auditados para clasificarlos en anómalos o normales. Dickerson encontró que el método es particularmente efectivo contra pruebas y escaneos de puertos. La desventaja primaria de este método es la labor intensiva del proceso de generación de reglas.

► Algoritmos genéticos, es una técnica de búsqueda que se utiliza para encontrar

soluciones aproximadas a los problemas de optimización y búsqueda, también ha sido ampliamente empleada en el ámbito de la detección de intrusos para diferenciar el tráfico

normal de la red del tráfico de conexiones anómalas. La mayor ventaja de los algoritmos genéticos es su flexibilidad y robustez como un método de búsqueda global. Además, un algoritmo genético converge a la búsqueda de una solución desde múltiples direcciones, y se basa en reglas probabilísticas en lugar de deterministas. En el ámbito de la detección de intrusos en la red, los algoritmos genéticos se han utilizado de diversas maneras. Algunos enfoques (Li, 2004) los han empleado directamente para obtener las reglas de clasificación, en tanto otros (Bridges and Vaughn, 2000, Gómez and Dasgupta, 2001) hacen uso de algoritmos genéticos para seleccionar las características apropiadas o determinar los parámetros óptimos de las funciones relacionadas, mientras que diferentes técnicas de minería de datos se utilizan para adquirir las reglas. El primer intento de aplicar los algoritmos genéticos para el problema de la detección de intrusos fue realizado en 1995 (Patcha and Park, 2007), cuando se aplicó la tecnología de múltiples agentes para la detección de anomalías de red. Aunque la ventaja de este enfoque es que usa numerosos agentes utilizados para controlar una serie de parámetros basados en la red, la falta de comunicación dentro de los agentes y un largo proceso de formación son algunas de las cuestiones que no se abordaron.

► Redes neuronales, constituyendo la base de un sistema de detección de intrusos son

tradicionalmente sistemas basados en host que se centran en la detección de desviaciones en el comportamiento de programas como una señal de anomalía. En el enfoque de redes

neuronales para la detección de intrusos, estas aprenden a predecir el comportamiento de los distintos usuarios y de los procesos de fondo del sistema. La principal ventaja consiste en su tolerancia para los datos imprecisos e información dudosa, y su habilidad para inferir soluciones desde los datos sin tener previo conocimiento de la regularidad de los mismos. Todo esto en combinación con su habilidad de generalización a partir de los datos de entrenamiento muestra un enfoque apropiado para la detección de intrusos.

Sin embargo, las soluciones basadas en las redes neuronales tienen varias desventajas. Primeramente, estos pueden fallar en encontrar una solución satisfactoria cualquiera por carecer de datos suficientes o por ser una función no adiestrable. En segundo lugar, las redes neuronales pueden ser lentas y caras en el entrenamiento. La carencia de velocidad es en parte por la necesidad de colectar y analizar los datos entrenados y en parte porque las redes neuronales han de manipular los pesos de las neuronas individuales para llegar a la solución correcta.

Existen distintos grupos de la promoción de diversos criterios para la utilización de redes neuronales para la detección de intrusos. Ghosh y otros. (Ghosh and Schwartzbard, 1999, Ghosh et al., 1999) utilizan el feed-foward 6 para volver a la propagación y la Red Recurrente Elman (Elman, 1990) para la clasificación de las secuencias de llamada al sistema. Sus resultados experimentales con la base de datos de evaluación de detección de intrusos DARPA 1998 y 1999, comprobó que la aplicación de la Red de Elman en el ámbito de la detección de intrusos basado en programas, provee de resultados siempre superiores en comparación con los resultados de usar el perceptrón 7 multicapa estándar

6

El término feed-forward describe un tipo de sistema que reacciona a los cambios en su entorno, normalmente para mantener algún estado concreto del sistema. Un sistema que exhibe este tipo de comportamiento responde a las alteraciones de manera predefinida, en contraste con los sistemas retroalimentados.

7… El perceptrón es la neurona artificial y unidad básica de inferencia en forma de discriminador lineal,

es multicapa cuando está formado por múltiples capas, esto le permite resolver problemas que no son linealmente separables.

basado en redes neuronales. Sin embargo, la formación de la red Elman es cara y el número de redes neuronales que se requiere es grande. En otro documento, Ramadas y otros. (Ramadas and Tjaden, 2003), presenta la Detección de Tráfico de Red Anómalo con un Auto Organizador de Mapas, por sus siglas en inglés (ANDSOM). ANDSOM es el módulo para la detección de anomalías de red basado en el sistema de detección de intrusos, llamado INBOUNDS, que se desarrolló en la Universidad de Ohio. El módulo ANDSOM crea un Auto Organizador de Mapas SOM4 bidimensional para cada servicio de red que se está supervisando. En el documento, los autores prueban la metodología propuesta utilizando el DNS y servicios de HTTP. Las neuronas son entrenadas con normalidad en el tráfico de la red durante la fase de entrenamiento para captar patrones característicos. Cuando los datos en tiempo real se alimentan de las neuronas entrenadas, si la distancia de la entrada de tráfico es más de un umbral preestablecido, se detectará una anomalía.

Los esquemas de detección de anomalías, también involucran otras técnicas de minería de datos, tales como Máquinas de Vectores de Soporte (SVM) y otros tipos de modelos de redes neuronales (Lee et al., 2001, Tan and Maxion, 2003). Debido a que las técnicas de minería de datos necesitan datos y no dependen de los patrones de la red y la actividad del sistema, observadas previamente, algunas de estas técnicas han sido muy exitosas en la detección de nuevos tipos de ataques. Sin embargo, estas técnicas a menudo tienen una muy alta tasa de falsos positivos. Por ejemplo, el enfoque adoptado por Sung y Mukkamala (Sarasamma et al., 2005) que utilizan una técnica de SVM para realizar un sistema de detección de intrusos para la detección específica de clase, es defectuoso porque ignoran totalmente las relaciones y dependencias entre las características.

Related documents