• No results found

Time (minutes)ln

MATERIALS AND METHODS:

Para permitir que una entidad inteligente asuma el control de una variable, se considera importante que dicha entidad, un agente o un operario, primero sea entrenada en el manejo de la VM. Para dotar al agente con la propiedad de adaptabilidad se requiere que sea capaz de actualizar su base de conocimiento por lo que debe seguir aprendiendo después del entrenamiento inicial.

Esta primera fase consiste en hacer cambios en escalón a la VM a lo largo de todo su rango hacia arriba y hacia abajo, con lo que el agente debe capturar el tiempo muerto de cada variable y la ganancia entre la VM y la controlada, así como los límites superior e inferior de cada una. La señal de control que el agente utiliza está en el rango de 0 a 100%, el cual es convertido por el controlador en una salida de 4 a 20 mili Amperios.

Para comenzar el entrenamiento, una VC del simulador es asignada a cada agente mediante su interface de usuario. A continuación el agente solicita al simulador información sobre el número de variables relacionadas con su VC, pudiendo seleccionar inicialmente hasta seis variables, número que puede crecer si durante la fase de post entrenamiento se considera necesario.

Cada agente hace pruebas con su VM para causar disturbios sobre el resto de las variables. La prueba termina cuando cada agente detecta que su VC se ha estabilizado. Durante la prueba ningún agente sabe el valor en el que su VC va a terminar, por ello después de que las variables controladas han dejado de cambiar, el valor al que llegan es

77

tomado como el PA alcanzado cuando todas las variables están en balance con la VM y ese es el valor que la RN del agente debe aprender. Esto se representa en las Figuras 4-1 y 4-3 donde la salida del proceso es retroalimentada como señal de PA.

Entonces en la fase de operación, en la presencia de un PA real el agente conoce las combinaciones de variables y el valor de su VM para mantener el balance. Este esquema de control no considera la retroalimentación durante la fase de operación, pero si se considera para medir la eficiencia del agente.

Vistos en conjunto en la Figura 3-4 los agentes perciben las perturbaciones causadas por los demás agentes y las suyas propias. Cuando están presentes todos los agentes haciendo pruebas se dificulta estimar manualmente el retardo y la ganancia que cada variable tiene. La misma figura presenta el arreglo para la realización de las pruebas, por simplicidad sólo se representan tres agentes.

Con esta primera parte del entrenamiento, el agente aprende en qué dirección mover su señal de control respecto al PA, si es positivo o negativo el sentido en el cual logra que el error desaparezca. Con estos parámetros de entrenamiento está aprendiendo a actuar como un controlador retroalimentado, lo cual ocurrirá cuando entre en la fase de post entrenamiento. Los parámetros obtenidos en esta fase se almacenan en el módulo de evaluación, descrito en la sección “3.4.10 Planificación de Tareas”.

78

A continuación deben desarrollarse variaciones secuenciales sobre las VD para que el agente pueda observar el efecto que cada una tiene sobre la VC. El agente y el entorno de simulación interactúan para generar datos de estados estables que el agente emplea para su entrenamiento. El entorno de simulación puede recibir una señal del agente para generar secuencialmente un escalón en cada señal asociada a la VC. Cada escalón puede tener una magnitud aleatoria, la duración del escalón depende de momento en que la VC alcanza su estado estable.

Cada vez que se genera un escalón en una VD todos los agentes observan la variación que tiene su VC y en lugar de tratar de atenuar la desviación que la perturbación causa, cuando la VC llega a un valor final el agente captura el valor de cada una de las variables que está observando así como el valor de su VC, el cual es asignado a la entrada de PA. Así los valores capturados señalan el PA que puede lograr con esa combinación de valores de las VDs. Eventualmente se reúnen todos los valores de PA relacionados con una región operativa y al realizar el entrenamiento se están tomando en cuenta las combinaciones que pueden existir para obtener un PA. Este es el punto medular del empleo de la RN como modelo de las acciones de control.

En este estudio exploratorio para aplicar agentes al control regulatorio se eligió la RN como base para el modelo prealimentado por su habilidad para manejar restricciones de tiempo y su menor demanda de recursos computacionales. El uso de la RN permite al agente percibir una considerable cantidad de señales del proceso y manejar más de una VM, no obstante por simplicidad se utiliza una salida para las acciones de control. Eventualmente y dependiendo de la naturaleza del proceso un agente puede tener más de una salida, habilitándolo a manipular más de una variable.

No se utilizó una máquina de inferencia difusa para modelar las acciones de control, debido a que al aumentar el número de variables en las premisas también aumenta el número de reglas [209]. En contraste, la RN es usada para manejar una gran cantidad de variables sin necesidad de realizar modificaciones a la base de conocimiento que además está inmersa en el mismo mecanismo de inferencia.

Se destaca la importancia del PA por considerarlo como una de las entradas a la RN, esta señal es vista como parte de la combinación de entradas que la red aprende para producir una señal de control en su salida. En esta etapa el valor final de la VC es tomado como el PA alcanzable en las condiciones actuales, así cuando un PA real es dado al modelo puede predecir el valor de salida necesario para alcanzarlo. Posteriormente, en la etapa de operación el PA puede ser dado por el usuario o por otro agente dependiendo de la organización prevaleciente a lo que la RN responde con la salida almacenada en sus parámetros.

79

Una RN con una configuración predeterminada se construye para esta fase con el mismo número de entradas que el agente seleccionó; con retardos vacíos, quince nodos ocultos con función de activación tangente hiperbólica y uno lineal en la salida. Si después de la selección inicial de variables el agente determina que hay más variables afectando su VC puede agregar entradas a su RN además de las conexiones respectivas a la estructura, con pesos y polarizaciones ajustadas a cero. El entrenamiento en cada estado estable se hace por el método de Levenberg y Marquardt (LM) [210], [211], para obtener una convergencia rápida en tiempo real.

La selección de variables se realiza con base en las variables de su grupo funcional, el cual está definido en el SCD, cuando se emplea el simulador se utiliza la misma base de datos que reside en el SCD. Las variaciones generadas por el simulador permiten al módulo de selección, un módulo que sólo se emplea en esta etapa, observar el efecto que cada una tiene sobre su VC.

1 # !

Para seleccionar una variable se emplea una máquina de inferencia difusa. La base de reglas difusas se presenta en la Figura 3-5, donde las variables de los antecedentes son ∆VC y ∆VD. Los valores que cada variación puede asumir son: positivo P, negativo N y cero Z. Las consecuencias en las celdas de la base de reglas son los valores que ∆VM toma, también P o N; no obstante, si ∆VC es cero su valor es E de eliminar. La tira vertical de celdas etiquetadas con E indica que la variación de la VD no tiene efecto alguno sobre la VC y por ello no debe tomarse en cuenta. La tira horizontal ocurre cuando la VC varía sola; es decir, cuando otra variable está causando la perturbación. Ya que las pruebas se

80

van realizando en secuencial sobre otras variables de disturbio en cada agente este módulo solo toma en cuenta las variables seleccionadas.

El universo de discurso de las dos variables en observación está escalado de cero a cien por cien. El escalón de entrada en la VD se ajusta a un 10% de su rango total, en la escala del sistema difuso la escala de la perturbación es de 0 a 100% y lo mismo se espera en el porcentaje de la variación de la VC. Si la variación de la VC no es mayor al 1%, se considera que la perturbación no tuvo efecto y la VD es descartada, otra VD es escogida y se realiza una nueva prueba.

Antes que una prueba sea hecha el modelo del proceso debe estar en estado estable considerando el valor actual de la VC como el valor de PA, ver la Figura 3-2. La VD en turno es incrementada una cantidad ∆VD, esta cantidad y las variaciones consecuentes de ∆VC son difuminadas para evaluar las reglas de selección. En respuesta al disturbio generado por el simulador el agente debe producir una acción de control. El valor lingüístico adquirido por la ∆VM depende de cómo le afecta la VD a la VC. Así, dependiendo de las funciones de membresía (P, N, Z) adquiridas por esas dos variables, la celda correspondiente es preparada para recibir el nombre del término lingüístico de

∆VM, P o N. Si alguna de las dos variables permanece en Z la VD es descartada. En caso contrario, un cambio ∆VM es hecho en alguna dirección, si ∆VC se reduce, se hacen ajustes subsecuentes en esa dirección hasta que ∆VC se reduce al mínimo. Con esto se ha seleccionado una VD y un valor de ±∆m, representada en la Figura 3-7, queda definido para usarlo en la etapa de post-entrenamiento, en la que el agente funciona como controlador retroalimentado, asimismo el tiempo muerto, representado en Figura 3-3, entre cada VD y su efecto sobre la VC queda definido.

La importancia de la habilidad de seleccionar las variables en tiempo real es que las interacciones pueden ser muchas y difíciles de determinar y aun más difícil su dinámica; es decir, su constante de tiempo y función de transferencia. La guía principal para tener una idea de las interacciones está en los diagramas funcionales y la ingeniería del proceso. Sin embargo, el diseño del proceso en ingeniería química se basa frecuentemente en modelos de estado estable, así que cuando el proceso se pone en marcha su conducta dinámica tiene efectos secundarios además de los esperados. Consecuentemente, la habilidad de seleccionar variables permite al agente a mejorar sus percepciones del entorno y consecuentemente sus acciones de control.

El modelo para control prealimentado debe considerar como entradas las variables del entorno, PA, VM y VDs, por otro lado la VC es usada como medición del índice de desempeño. La salida del modelo es la VM donde el balance entre las diferentes

81

combinaciones de VDs y PA produce un valor de VC; precisamente el valor de VC que es alimentado a la entrada de PA, dado que esta señal es parte de la combinación que el modelo considera como PA es también una entrada al modelo de la Figura 3-2.

La configuración de entrenamiento mostrada en la Figura 3-2 no puede atrapar la respuesta dinámica de la acción de control. Este modelo captura el balance entre la VM, PA y las DVs; esto es, la correspondencia inversa entre dichas entradas y la salida que para el agente es la VM en estado estable. Este modelo de los efectos que las acciones de control y las variaciones que el entorno tienen sobre la VC, permiten al agente hacer los ajustes necesarios para preservar el balance respecto al PA conforme cualquiera de las VDs varía.

No obstante, conforme los cambios en las DVs van llegando simultáneamente al perceptor del agente y al proceso, la RN toma las señales antes de que entren al proceso. La RN procesa las señales más rápido que las constantes de tiempo del proceso. Por lo que la acción de control puede ser calculada tan rápidamente que es necesario retardar la salida de las acciones de control para que no se anticipen –lo que causaría una perturbación adicional -, sino que sean desarrolladas en el momento preciso. En lugar de retardar la salida del agente, se retarda la entrada de cada señal que el agente muestrea. Por esta razón es almacenado el retardo observado durante esta fase entre cada VD y su efecto medible sobre la VC. Más tarde, en la fase de post entrenamiento el agente debe ajustar el retardo para cada VD.

Related documents