Production process design - COORDINATION APPROACH

COORDINATION APPROACH

4.4 Production process design

La utilizaci´on de redes bayesianas y otros algoritmos de inteligencia artificial est´an siendo utilizados como clasificadores para lograr atacar la subjetividad que puede existir en los ataques de seres humanos a las redes computaciones.

A continuación se analiza la utilización de redes bayesianas para la detección de correo no solicitado, también conocido como SPAM. El funcionamiento y filosof´ıa detrás de los sistemas de detección de SPAM es similar al funcionamiento y filosof´ıa del sistema creado en la presente tesis para comprobar la hipótesis de la efectividad de las redes bayesianas para detectar ataques no conocidos en servidores autoritativos del DNS.

Las redes bayesianas se han convertido en un concepto de uso general y en el est´andar para detectar SPAM gracias a su exactitud.

En un principio se crearon bases de datos de direcciones de IPs donde se hospeda- ban servidores de correo que enviaban SPAM as´ı como bases de datos con las firmas de

mensajes de SPAM previamente identificados, sin embargo, todas estas soluciones eran efectivas ya que el SPAM hab´ıa sido reportado y anexado a estas bases de datos, la utilizaci´on de clasificadores bayesianos ha permitido que los sistemas de correo detecten SPAM no conocido con anterioridad.

Spamassassin es un buen ejemplo de un sistema anti SPAM que utiliza clasificadores bayesianos para catalogar el correo electr´onico y de igual forma puede ser entrenado para reconocer nuevo SPAM o para adaptarse a las caracter´ısticas propias de cada usuario (idioma, tipo de correos recibidos, etc.).

Spamassassin a diferencia de otras soluciones que utilizan redes bayesianas para catalogar SPAM toma en cuenta una cantidad amplia de variables que va mas allá de simplemente obtener todas las palabras del cuerpo del mensaje y utilizar el clasificador, en Spamassassin existen variables cuyo valor es obtenido de un análisis profundo de los encabezados del correo. Se ha propuesto utilizar variables obtenidas a partir del dominio propio del protocolo de env´ıo de correo electrónico SMTP[16], en su art´ıculo [29] los investigadores explican los buenos resultados obtenidos con esta técnica. Por ejemplo: si la dirección IP de la persona que env´ıa el mensaje está en alguna de las listas negras de autores de SPAM en Internet, entonces existe una mayor probabilidad que el correo sea SPAM.

El sistema de análisis y obtención de datos de Spamassassin es sumamente flexi- ble y ha permitido que se incorporen nuevas variables de forma sencilla. Por ejemplo la creación del estándarSender Policy Framework (SPF, por sus siglas en inglés) está per- mitiendo evitar la utilización de direcciones de inocentes para el env´ıo de SPAM, Spa- massassin fácilmente logro incorporar la validez de los registros SPF en su conjunto de variables para identificar SPAM.

Las variables identificadas en el correo electr´onico son alimentadas al sistema de reglas que ya tiene predefinido una probabilidad para cada regla que resulta ser verdadera. Spamassassin viene con un conjunto de reglas y probabilidades predefinidas,

sin embargo, se puede entrenar la red bayesiana para reconocer nuevos correos que son SPAM. El usuario simplemente almacena los correos que ha identificado como SPAM y con la ejecuci´on de una utiler´ıa de Spamassassin llamada “sa-lerning” se entrena la red para el reconocimiento de nuevos correos.

Cap´ıtulo 3

Definici´on del Problema

Durante años los investigadores han buscado crear IDS que puedan detectar actividades maliciosas sin conocimiento previo; diversas técnicas de inteligencia artificial han sido propuestas en la creación de IDS que simulen el razonamiento de un experto en seguridad, sin embargo no se han obtenido los resultados deseados.

La acción de detectar intrusos en una red de cómputo sin conocimiento previo es un problema sumamente complejo y en la actualidad la falta de esta caracter´ıstica es reconocida como una de las limitantes de los IDS[2]. Detectar ataques sin conocimiento previo es sumamente complejo, ya que existen una cantidad de variables enormes y sin relaciones claramente definidas entre las mismas que puedan ayudar a implementar una solución exitosa. Aunado a la complejidad intr´ınseca del problema, el mismo puede ser analizado en cada una de las capas del modelo OSI. Los mejores sistemas de detección de intrusos de la actualidad analizan todas las capas del modelo OSI lo que ha creado otro problema, al llegar a las capas superiores existen diferentes protocolos (HTTP, FTP, etc.) y cada uno de estos protocolos tiene un propósito y forma diferente de trabajar, por lo cual se deben crear módulos de detección espec´ıficos para cada protocolo.

En un principio se planteó como objetivo de tesis: Desarrollar un NIDS inteligente que busque ataques analizando tráfico de enlaces cr´ıticos (backbones, distribución a

switches de segundo nivel, etc.) en una red mediante la utilizaci´on de redes neuronales debido a los prometedores resultados obtenidos en [4], [28], [15] y [8] por investigadores

alrededor del mundo. El objetivo resultó estar muy por encima del alcance y posibili- dades de una tesis de postgrado de maestr´ıa, por lo cual, se decidió acotar el problema y solución. El objetivo original planteaba la creación de un sistema capaz de sustituir al experto de seguridad, con la suficiente capacidad para detectar ataques no conocidos utilizando las variables contenidas en la capa cuatro del modelo OSI y su relación con las capas superiores.

Después de acotar el problema y solución se planteó como objetivo: Desarrollar un NIDS inteligente capaz de detectar actividades maliciosas sobre servidores autoritativos del DNS con cierto grado de certeza (probabilidad) utilizando variables de importancia en la capa 4 (transporte) del modelo OSI y analizando de forma exhaustiva variables en la capa 7 (aplicación). Gracias a este nuevo objetivo el problema fue acotado y se pudo utilizar la experiencia del autor en el DNS. El nuevo objetivo busca crear un sistema que permita al experto en seguridad filtrar una gran cantidad de paquetes de DNS y obtener cuales paquetes son sospechosos. La capacidad de análisis, búsqueda de relaciones, s´ıntesis y experiencia obtenida a través del tiempo de un experto en seguridad son caracter´ısticas clave que dif´ıcilmente podrán ser sustituidas por un sistema computacional autónomo, sin embargo, catalogar el tráfico en base a una probabilidad de actividad maliciosa permitirá al experto en seguridad centrar su atención en el tráfico de mayor importancia. Se eligió proteger servidores autoritativos del DNS, por el papel cr´ıtico que desempeñan estos servidores en el correcto funcionamiento de Internet, además de que el autor de esta tesis tiene experiencia en el funcionamiento de este protocolo.

La solución propuesta analiza la capa de interconexión de redes y exhaustivamente la capa de aplicación del modelo de referencia TCP/IP obteniendo variables a partir de los datagramas de comunicación que posteriormente son utilizadas para clasificar el tráfico como sospechoso o no. La solución propuesta busca proteger servidores autoritativos por lo que se consideran las caracter´ısticas propias de este tipo de servidores.

La técnica de inteligencia artificial utilizada es la de clasificadores bayesianos. Los clasificadores bayesianos han resultado sumamente efectivos al implementar clasificadores inteligentes, y actualmente encontramos sistemas que explotan sus caracter´ısti- cas para buscar desde problemas en redes eléctricas hasta el bloqueo de SPAM o correo no solicitado. La utilización de clasificadores bayesianos para detectar ataques no conocidos es un campo que está empezando a ser estudiado con resultados prometedores [3].

Cap´ıtulo 4

Soluci´on propuesta mediante clasificac´ı´on bayesiana

de paquetes de DNS

El objetivo principal de la investigaci´on realizada es clasificar consultas del DNS cuyas caracter´ısticas permitan etiquetarlas como tr´afico de red sospechoso. Las consultas clasificadas como sospechosas pueden significar un ataque o compromiso en la seguridad y deben ser analizadas con prontitud por los responsables de seguridad de las empresas e instituciones que administran servidores autoritativos.

4.1. Antecedentes

Los registros de Internet tienen como función principal administrar un nivel supe- rior del árbol de DNS, y, generalmente proporcionan el servicio de DNS al público en general. La terminación asignada a nuestro pa´ıs es .mx y NIC México es la empresa que administra los servidores autoritativos para la zona .mx que son clave en la correcta operación de los dominios terminados en .mx y en gran medida de la correcta operación de la mayor´ıa de los sitios mexicanos en Internet.

Los servidores autoritativos de NIC M´exico reciben aproximadamente 30,000 consultas por minuto y cada consulta puede ser un ataque que puede tener consecuencias tan simples como generar gasto de ciclos de CPU hasta consecuencias graves como

lograr comprometer el servidor en cuesti´on.

No existen bases de datos de entrenamiento con información procedente de paquetes de DNS, as´ı que uno de los principales retos para llegar a identificar tráfico anómalo en consultas del DNS es crear las bases de datos de entrenamiento que permitan evaluar si los clasificadores bayesianos u otros métodos de clasificación son adecuados para esta tarea.

In document Early involvement in product development : how to involve Inventi early in the new product development processes of its customers (Page 48-50)