Force Sensor Design Specifications - Optical Fibre-based Force Sensing Needle Driver for Minima

El principio de optimalidad que Richard E. Bellman establecido en su libro en el a˜no de 1957 (p´agina 83) dice lo siguiente:

“An optimal policy has the property that whatever the initial state and initial decision are, the remaining decisions must constitute an optimal policy with regard to the state resulting from the first decision.”

De acuerdo con Bellman (1957, página 115), la idea básica de la programación dinámica fue iniciada por él mismo en su investigación, sobre problemas de decisión de multiples estados, realizada durante los años de 1949 y 1951. El primer trabajo publicado sobre programación dinámica fue presentado por Bellman en 1952, el cual un año después fue incluido dentro de una serie de art´ıculos de la serie de Rand Corporation.

Para el año de 1954, Bellman encontró que la técnica era también aplicable al cálculo de variaciones y a los problemas de control óptimo, cuyas ecuaciones de estado eran ecuaciones diferenciales ordinarias. Esto, posteriormente, lo llevó a la solución de una ecuación

Las condiciones de suficiencia para la existencia y unicidad de una solución para un sistema de ecuaciones diferenciales estocásticas han sido muy estudiadas y a lo largo de este cap´ıtulo se presentarán los resultados mas relevantes.

diferencial parcial no-lineal, ahora conocida como ecuación de Hamilton-Jacobi-Bellman (HJB). Sin embargo, parece ser que él no reconoció, en un principio, la relación existente entre este tipo de soluciones y la bien conocida ecuación de Hamilton-Jacobi originada dentro del área de la mecánica. De hecho, no existe mención de esta relación sino hasta tres años después de la aparición del libro de Bellman; tal mención fue hecha por Rudolf E. Kalman (1960) y probablemente fue el primero en usar el nombre de la ecuación de Hamilton-Jacobi-Bellman para problemas de control óptimo.

No obstante, hay que decir que el trabajo de Bellman se basa en algunos otros trabajos y aportaciones anteriores. Primero, la idea del principio de optimalidad realmente se debe a Jakob Bernoulli con la solución del famoso problema debrachistochroneen el año de 1696. Por otra parte, una ecuación relativamente idéntica a la que mas tarde se conocer´ıa como “ecuación de Bellman”, fue derivada por Carathéodory en 1926, mientras él estudiaba las condiciones de suficiencia de los problemas de cálculo de variaciones. Finalmente, también debemos mencionar el trabajo de Wald sobre análisis secuencial, realizado en los últimos años de la década de los cuarenta, y el cual contiene algunas ideas similares a lo que propone la programación dinámica.

Aunque la versión estocástica en tiempo discreto de la programación dinámica fue discutida en los primeros trabajos de Bellman, la versión estocástica en tiempo continuo (la cual involucra las ecuaciones diferenciales estocásticas del tipo de Itôcomo ecuaciones de estado), probablemente fueron primero estudiadas por Kushner (1962). A partir de entonces, mucha gente ha contribuido al desarrollo de la materia.3

Ahora bien, tenemos que decir que por largo tiempo, la teor´ıa de programación dinámica de sistemas determin´ısticos careció de rigor. La principal dificultad matemática para un tratamiento riguroso es que la ecuación de HJB correspondiente es una ecuación diferencial parcial de primer órden, la cual generalmente no admite una solución clásica (suave) o donde las funciones de valor no son continuamente diferenciables. Algunas per- sonas hicieron varios intentos para introducir diferentes nociones de generalidad o soluciones débiles, y trataron de probar que la función de valor es solución de la ecuación de HJB en algún sentido. Durante la década de los sesenta, en una serie de art´ıculos, Kru˘zkov (1966 y 1970) construyó una teor´ıa sistemática para la solución de ecuaciones de Hamilton- Jacobi (HJ) de primer órden con el uso de hamiltonianos suaves y convexos. En particular, la solución viscosa disminuida fue introducida por él. Al mismo tiempo, Fleming (1964 y 1969), independientemente, introdujo este concepto combinado con la técnica de juegos

Por mencionar algunos trabajos, el lector puede consultar a Fleming & Rishel (1975), Krylov (1980) y Fleming & Soner (1992).

diferenciales.

Por otro lado, al inicio de los años ochentas, Subbotin (1980) estudio las ecuaciones de HJ con hamiltonianos no-convexos, introduciendo a la postre la llamada solución minimax. Mientras que Clarke & Vinter (1983) emplearon los gradientes generalizados de Clarke para introducir soluciones generales a la ecuación de HJB. Bajo este contexto, la ecuación HJB puede tener mas de una solución y la función de valor es una de ellas.

Durante los mismos años, Crandall & Lions (1983) trabajaron con la idea de una solución viscosa para las ecuaciones de HJ de primer órden. Lions (1982), independientemente, aplicó por una parte la teor´ıa de soluciones viscosas a problemas de control óptimo determin´ıstico y, por otra, investigó las ecuaciones de segundo órden degeneradas de HJ usando la teor´ıa desarrollada por Feynman-Ka˘c, representando la solución de la ecuación diferencial parcial de segundo órden por las funciones de valor de algunos problemas de control óptimo estocástico.

Jensen (1988) fue el primero en encontrar una ecuación diferencial parcial que probara la unicidad de la solución viscosa para las ecuaciones de HJB de segundo órden, usando la técnica de aproximaciones semiconvexas/semiconcavas. Mas tarde, Ishii (1989) propuso una nueva prueba. Estos resultados ofrecieron, al fin, un fundamento riguroso para el método de la programación dinámica.4

Por último, como sabemos para la resolución de un problema de control óptimo determin´ıstico una forma natural de aplicar el método de programación dinámica es el siguiente: primero, considerando un tiempo inicial y una variable de estado, definimos una función de valor. Segundo, establecemos el principio de optimalidad de Bellman,5 junto con la condición de continuidad y de acotamiento local de la función de valor. Tercero, debemos mostrar que la función de valor es una solución viscosa de la ecuación de HJB, basándonos en el principio de optimalidad. Cuarto, también debemos probar que la ecuación de HJB admite al menos una solución viscosa. De aqu´ı en adelante, algunos otros pasos pueden ser seguidos, como la aplicación del teorema de verificación.

Este proceso es bastante claro, tanto que nos gustar´ıa aplicarlo a la resolución de problemas de control óptimo estocástico. No obstante, podemos darnos cuenta que no es trivial mantener un proceso paralelo en ambos casos, ya que los problemas determin´ısticos y estocásticos son bastante diferentes.6 Para manejar esto, la formulación débil tiene que

4 _V´_{ease Fleming & Soner (1992) para una revisi´}_{on mas detallada del tema.}

5 _{El cual tiene que ser probado, ya que ´}_{esta no es una propiedad natural.} _{De hecho, en algunas}

situaciones tales como el llamado caso no-Markoviano no se cumple.

ser considerada como una formulación auxiliar, a saber, un control admisible deberá estar contruido a partir de una qu´ıntupla (Ω,F,P, W(·), u(·)). Esto, sin embargo, aplica sólo para el caso de coeficientes determin´ısticos (es decir, todas las funciones b, σ, f y h no dependen expl´ıcitamente de ω∈Ω).

Aunque el caso estocástico es muy diferente del caso determin´ıstico, seguimos un proceso similar para probar unicidad. Las principales modificaciones son: (1) La aproximación semiconvexa/semiconcava han sido introducidas, (2) El resultado de Alexandrov y Jensen (sobre las funciones semiconvexas/semiconcavas) se emplea y (3) La idea de Ishii (de usar completamente la información del Hessiano de una función que alcanza un máximo local) ha sido adoptada.7

Las referencias estándar sobre contról óptimo estocástico y programación dinámica son Fleming & Rishel (1975), Friedman (1975) y Krylov (1980). Una exposición mas didáctica puede ser encontrada en el libro de Øksendal (1995). Un trabajo reciente, que incluye el uso de las llamadas soluciones viscosas para problemas de control óptimo estocástico, es el que presentan tanto Fleming & Soner (1993) y Yong & Zhou (1999). Los art´ıculos clásicos sobre consumo óptimo son los de Merton (1969, 1971). Los trabajos de Karatzas et al.

(1987) y Duffie (1994) también son muy útiles para estudiar este tema. Para la parte de intercambio óptimo bajo restricciones y su relación con la valuación de derivados, está el trabajo de Cvitanić (1997) y algunas referencias que en el se incluyen. Puede también usarse como referencia el art´ıculo de Cox & Huang (1989) y el libro de Korn (1997), donde se incluye una aproximación a través del uso de martingalas para problema de cosumo e inversión óptima.

In document Optical Fibre-based Force Sensing Needle Driver for Minimally Invasive Surgery (Page 51-54)