COORDINATION APPROACH
4.4 Production process design
La utilizaci´on de redes bayesianas y otros algoritmos de inteligencia artificial est´an siendo utilizados como clasificadores para lograr atacar la subjetividad que puede existir en los ataques de seres humanos a las redes computaciones.
A continuaci´on se analiza la utilizaci´on de redes bayesianas para la detecci´on de correo no solicitado, tambi´en conocido como SPAM. El funcionamiento y filosof´ıa detr´as de los sistemas de detecci´on de SPAM es similar al funcionamiento y filosof´ıa del sistema creado en la presente tesis para comprobar la hip´otesis de la efectividad de las redes bayesianas para detectar ataques no conocidos en servidores autoritativos del DNS.
Las redes bayesianas se han convertido en un concepto de uso general y en el est´andar para detectar SPAM gracias a su exactitud.
En un principio se crearon bases de datos de direcciones de IPs donde se hospeda- ban servidores de correo que enviaban SPAM as´ı como bases de datos con las firmas de
mensajes de SPAM previamente identificados, sin embargo, todas estas soluciones eran efectivas ya que el SPAM hab´ıa sido reportado y anexado a estas bases de datos, la utilizaci´on de clasificadores bayesianos ha permitido que los sistemas de correo detecten SPAM no conocido con anterioridad.
Spamassassin es un buen ejemplo de un sistema anti SPAM que utiliza clasi- ficadores bayesianos para catalogar el correo electr´onico y de igual forma puede ser entrenado para reconocer nuevo SPAM o para adaptarse a las caracter´ısticas propias de cada usuario (idioma, tipo de correos recibidos, etc.).
Spamassassin a diferencia de otras soluciones que utilizan redes bayesianas para catalogar SPAM toma en cuenta una cantidad amplia de variables que va mas all´a de simplemente obtener todas las palabras del cuerpo del mensaje y utilizar el clasificador, en Spamassassin existen variables cuyo valor es obtenido de un an´alisis profundo de los encabezados del correo. Se ha propuesto utilizar variables obtenidas a partir del dominio propio del protocolo de env´ıo de correo electr´onico SMTP[16], en su art´ıculo [29] los investigadores explican los buenos resultados obtenidos con esta t´ecnica. Por ejemplo: si la direcci´on IP de la persona que env´ıa el mensaje est´a en alguna de las listas negras de autores de SPAM en Internet, entonces existe una mayor probabilidad que el correo sea SPAM.
El sistema de an´alisis y obtenci´on de datos de Spamassassin es sumamente flexi- ble y ha permitido que se incorporen nuevas variables de forma sencilla. Por ejemplo la creaci´on del est´andarSender Policy Framework (SPF, por sus siglas en ingl´es) est´a per- mitiendo evitar la utilizaci´on de direcciones de inocentes para el env´ıo de SPAM, Spa- massassin f´acilmente logro incorporar la validez de los registros SPF en su conjunto de variables para identificar SPAM.
Las variables identificadas en el correo electr´onico son alimentadas al sistema de reglas que ya tiene predefinido una probabilidad para cada regla que resulta ser verdadera. Spamassassin viene con un conjunto de reglas y probabilidades predefinidas,
sin embargo, se puede entrenar la red bayesiana para reconocer nuevos correos que son SPAM. El usuario simplemente almacena los correos que ha identificado como SPAM y con la ejecuci´on de una utiler´ıa de Spamassassin llamada “sa-lerning” se entrena la red para el reconocimiento de nuevos correos.
Cap´ıtulo 3
Definici´on del Problema
Durante a˜nos los investigadores han buscado crear IDS que puedan detectar ac- tividades maliciosas sin conocimiento previo; diversas t´ecnicas de inteligencia artificial han sido propuestas en la creaci´on de IDS que simulen el razonamiento de un experto en seguridad, sin embargo no se han obtenido los resultados deseados.
La acci´on de detectar intrusos en una red de c´omputo sin conocimiento previo es un problema sumamente complejo y en la actualidad la falta de esta caracter´ıstica es reconocida como una de las limitantes de los IDS[2]. Detectar ataques sin conocimiento previo es sumamente complejo, ya que existen una cantidad de variables enormes y sin relaciones claramente definidas entre las mismas que puedan ayudar a implementar una soluci´on exitosa. Aunado a la complejidad intr´ınseca del problema, el mismo puede ser analizado en cada una de las capas del modelo OSI. Los mejores sistemas de detecci´on de intrusos de la actualidad analizan todas las capas del modelo OSI lo que ha creado otro problema, al llegar a las capas superiores existen diferentes protocolos (HTTP, FTP, etc.) y cada uno de estos protocolos tiene un prop´osito y forma diferente de trabajar, por lo cual se deben crear m´odulos de detecci´on espec´ıficos para cada protocolo.
En un principio se plante´o como objetivo de tesis: Desarrollar un NIDS inteligente que busque ataques analizando tr´afico de enlaces cr´ıticos (backbones, distribuci´on a
switches de segundo nivel, etc.) en una red mediante la utilizaci´on de redes neuronales debido a los prometedores resultados obtenidos en [4], [28], [15] y [8] por investigadores
alrededor del mundo. El objetivo result´o estar muy por encima del alcance y posibili- dades de una tesis de postgrado de maestr´ıa, por lo cual, se decidi´o acotar el problema y soluci´on. El objetivo original planteaba la creaci´on de un sistema capaz de sustituir al experto de seguridad, con la suficiente capacidad para detectar ataques no conocidos utilizando las variables contenidas en la capa cuatro del modelo OSI y su relaci´on con las capas superiores.
Despu´es de acotar el problema y soluci´on se plante´o como objetivo: Desarrollar un NIDS inteligente capaz de detectar actividades maliciosas sobre servidores autoritativos del DNS con cierto grado de certeza (probabilidad) utilizando variables de importancia en la capa 4 (transporte) del modelo OSI y analizando de forma exhaustiva variables en la capa 7 (aplicaci´on). Gracias a este nuevo objetivo el problema fue acotado y se pudo utilizar la experiencia del autor en el DNS. El nuevo objetivo busca crear un sistema que permita al experto en seguridad filtrar una gran cantidad de paquetes de DNS y obtener cuales paquetes son sospechosos. La capacidad de an´alisis, b´usqueda de relaciones, s´ıntesis y experiencia obtenida a trav´es del tiempo de un experto en se- guridad son caracter´ısticas clave que dif´ıcilmente podr´an ser sustituidas por un sistema computacional aut´onomo, sin embargo, catalogar el tr´afico en base a una probabili- dad de actividad maliciosa permitir´a al experto en seguridad centrar su atenci´on en el tr´afico de mayor importancia. Se eligi´o proteger servidores autoritativos del DNS, por el papel cr´ıtico que desempe˜nan estos servidores en el correcto funcionamiento de Internet, adem´as de que el autor de esta tesis tiene experiencia en el funcionamiento de este protocolo.
La soluci´on propuesta analiza la capa de interconexi´on de redes y exhaustivamente la capa de aplicaci´on del modelo de referencia TCP/IP obteniendo variables a partir de los datagramas de comunicaci´on que posteriormente son utilizadas para clasificar el tr´afico como sospechoso o no. La soluci´on propuesta busca proteger servidores autori- tativos por lo que se consideran las caracter´ısticas propias de este tipo de servidores.
La t´ecnica de inteligencia artificial utilizada es la de clasificadores bayesianos. Los clasificadores bayesianos han resultado sumamente efectivos al implementar clasifi- cadores inteligentes, y actualmente encontramos sistemas que explotan sus caracter´ısti- cas para buscar desde problemas en redes el´ectricas hasta el bloqueo de SPAM o correo no solicitado. La utilizaci´on de clasificadores bayesianos para detectar ataques no cono- cidos es un campo que est´a empezando a ser estudiado con resultados prometedores [3].
Cap´ıtulo 4
Soluci´on propuesta mediante clasificac´ı´on bayesiana
de paquetes de DNS
El objetivo principal de la investigaci´on realizada es clasificar consultas del DNS cuyas caracter´ısticas permitan etiquetarlas como tr´afico de red sospechoso. Las con- sultas clasificadas como sospechosas pueden significar un ataque o compromiso en la seguridad y deben ser analizadas con prontitud por los responsables de seguridad de las empresas e instituciones que administran servidores autoritativos.
4.1.
Antecedentes
Los registros de Internet tienen como funci´on principal administrar un nivel supe- rior del ´arbol de DNS, y, generalmente proporcionan el servicio de DNS al p´ublico en general. La terminaci´on asignada a nuestro pa´ıs es .mx y NIC M´exico es la empresa que administra los servidores autoritativos para la zona .mx que son clave en la correcta operaci´on de los dominios terminados en .mx y en gran medida de la correcta operaci´on de la mayor´ıa de los sitios mexicanos en Internet.
Los servidores autoritativos de NIC M´exico reciben aproximadamente 30,000 con- sultas por minuto y cada consulta puede ser un ataque que puede tener consecuencias tan simples como generar gasto de ciclos de CPU hasta consecuencias graves como
lograr comprometer el servidor en cuesti´on.
No existen bases de datos de entrenamiento con informaci´on procedente de paque- tes de DNS, as´ı que uno de los principales retos para llegar a identificar tr´afico an´omalo en consultas del DNS es crear las bases de datos de entrenamiento que permitan evaluar si los clasificadores bayesianos u otros m´etodos de clasificaci´on son adecuados para esta tarea.