2.2. Process Characterization
2.2.3. Interconnections and Device Attachment Methods
“En lo tocante a ciencia, la autoridad de un millar no es superior al humilde razonamiento de un hombre.”
Galileo Galilei
3.1- Cálculos de los Índices de Derivada del Grafo
Las estructuras químicas se codificaron a través del cálculo de los respectivos Índices de Derivada del Grafo (GDI), inspirados en entropías de Teoría de Información (conocidas en idioma inglés como: Jenssent, Conditional, Joint y Mutual) sobre pares, ternas y cuaternas de átomos respecto a 6 eventos diferentes y ortogonales entre sí. Los átomos en cada molécula fueron diferenciados mediante el uso de diversas ponderaciones químicas, físicas y topológicas basadas en grados del vértice. Algunos ejemplos de rasgos atómicos usados en las diferentes formas de ponderación son: el estado intrínseco (I), el grado del vértice de Ivaniciuc (V), la electronegatividad de Pauling (E), la polarizabilidad (P), el volumen de Vander Wals (W), la carga (C), el grado de valencia (N), el área de superficie total polar (T), la conectividad excéntrica (Y) y grado del vértice Alikhanidi (L). Se cuantificaron además, índices globales y locales sobre heteroátomos (HT), donantes de hidrógeno (DH), halógenos (HL), carbonos metilos (MC) y enlaces insaturados (IS).
Todos los cálculos fueron desarrollados en el programa informático DIVATI v1.0, nuevo módulo del programa TOMOCOMD-CARDD, donde están implementadas todas las familias de índices basadas en el concepto de Derivada Discreta de un Grafo (Marrero-Ponce et al., 2013).
3.2- Modelación de la Regresión Lineal Múltiple
En este epígrafe se expondrán los resultados de la modelación, mediante el uso de la Regresión Lineal Múltiple, de la actividad antimalárica de los compuestos contenidos en la base de datos Malaria Box.
3.2.1- Selección de los mejores descriptores moleculares para la técnica de regresión lineal
La degeneración se refiere a la capacidad de un DM para evitar la obtención de valores idénticos para moléculas diferentes. Basados en el criterio anterior es
27
posible que, los descriptores no posean degeneración (N) o presenten algún tipo de degeneración que puede ser baja (L), intermedia (I) o alta (A). El grado de degeneración de un descriptor puede ser evaluado por medio del cálculo de la Entropía de Shannon (H).
La relación directa que existe entre el contenido de información de los resultados numéricos de los DMs y la entropía de Shannon de los mismos ha sido extensamente estudiada por Godden y colaboradores (Godden and Bajorath, 2000, Godden and Bajorath, 2002, Godden and Bajorath, 2003). Basándose en estas ideas, un análisis de variabilidad (AV) cuantifica el contenido de información y, por lo tanto, la variabilidad de los DMs, mediante el uso del cálculo de la entropía de Shannon como criterio cuantitativo. Para ello se introduce un procedimiento de discretización que emplea los histogramas de distribución de frecuencias. Sea p(a)i la probabilidad de que el caso a esté en el intervalo i, para
un número de intervalos N se construye una función de distribución de probabilidades, P(A), a la cual se le aplica la ecuación:
∑ ( )
(3.1)
De esta forma se obtiene la entropía de cada variable (DMs), la cual es elevada para variables de alta variabilidad y mínima para las de poca variabilidad en la data. Por tanto, esta técnica permite evaluar la calidad de los DMs como entidades independientes y se ha utilizado en la literatura para comparar el desempeño de conjuntos de DMs implementados de diferentes paquetes computacionales, así como en estudios de diversidad molecular (Godden and Bajorath, 2000, Barigye et al., 2013a, Barigye et al., 2013b, Barigye et al., 2014, Godden et al., 2000).
La degeneración es un atributo no deseable para un DM usado en la caracterización de estructuras químicas diversas estructuralmente.
Se debe esperar que para un conjunto de datos químicos tan diverso como es Malaria Box los DM que tienen mayor variabilidad aporten mejores resultados, debido a una descripción matemática a la realidad química de cada estructura de la base de datos. Con el objetivo de hallar los descriptores moleculares que mayor variabilidad posean, los anteriormente calculados fueron sometidos a un análisis
28
con el software IMMAN, el cual reportó el valor de la entropía de Shannon (H), organizó los DMs en orden decreciente de H y permitió seleccionar los mejores atributos.
3.2.2- Modelos lineales
Se desarrollaron modelos de RLM para la actividad antimalárica de las estructuras que componen el conjunto químico Malaria Box, con el programa MobyDigs v1.0. Este programa usa el algoritmo genético como método de selección de parámetros y el Q2Loo como función objetivo para escoger los mejores modelos.
Además, el software determina varios parámetros estadísticos para evaluar la calidad de los modelos.
De las 400 moléculas de la base de datos Malaria Box realmente se realizó la modelación sobre 317 ya que las 83 restantes no tenían definido el valor de la actividad antimalárica (Thomas Spangenberg et al., 2013).
RLM con índices de derivada de Jenssent
De los modelos de RLM desarrollados para los descriptores moleculares (basados en diferencias finitas de Jenssent) calculados se hizo una selección de las mejores variables.
Los parámetros estadísticos del mejor modelo de regresión lineal obtenido, en este caso, para describir la actividad antimalárica expresada como EC50_nM de las moléculas de la base de datos Malaria Box y sus correspondientes gráficos de regresión y predicción se muestran a continuación:
Parámetros estadísticos:
Tabla 2. Parámetros estadísticos del modelo de RLM representado en la ecuación 3.2 del Anexo 1 (Jenssent)
N R2 R Q2 Q2boot F Scv y-sc s
317 0.3652 0.6043 0.2948 0.2687 11.55 572.713 603.6396 587.737
Donde, N es el número de compuestos, R² es el coeficiente de determinación, R es el coeficiente de correlación, s es la desviación estándar de la regresión, Q2 es el coeficiente de determinación obtenido a partir del método de validación cruzada (LOO), y-sc es la prueba de aleatoriedad (y-scrambling), Q2boot es el coeficiente de
29
determinación de la validación por Bootstrap, Scv es la desviación estándar de la validación cruzada y F es el radio de Fisher.
Gráficos de regresión y predicción:
Figura 6. Gráfico de predicción para el modelo de RLM representado en la ecuación 3.2 del Anexo 1
Figura 7. Gráfico de Regresión para el modelo de RLM representado en la ecuación 3.2 del Anexo 1
Como puede observarse en los gráficos anteriores y en los parámetros estadísticos, este modelo lineal, basado en la teoría de Jenssent, posee una pobre capacidad de ajuste a los datos experimentales.
En busca de una mejora en la capacidad de ajuste y predicción del modelo de RLM pueden combinarse además otros descriptores moleculares basados en derivadas del grafo y teoría de la información (Conditional, Joint y Mutual) que son
30
ortogonales a los utilizados (Barigye et al., 2013c), que resulta en una recodificación de las estructuras, que tributa a una mayor cuantificación de la universalidad de información estructural.
RLM basada en la combinación de las derivadas trabajadas (Conditional, Joint, Mutual y Jenssent)
De la combinación de las mejores variables de las cuatro derivadas trabajadas (Conditional, Joint, Mutual y Jenssent) se obtuvo un modelo para describir la actividad antimalárica expresada como EC50_nM de las moléculas de la base de datos Malaria Box; los parámetros estadísticos y los correspondientes gráficos de regresión y predicción del mejor modelo se muestran a continuación:
Parámetros estadísticos:
Tabla 3. Parámetros estadísticos del modelo de RLM combinado, ecuación 3.3 (Anexo 2)
N R2 R Q2 Q2boot F Scv y-sc s
317 0.3803 0.63 0.3072 0.2743 11.13 497.294 525.776 511.711
Gráficos de regresión y predicción:
Figura 8. Gráfico de Regresión para el modelo de RLM representado en la ecuación 3.3 del Anexo 2
31
Figura 9. Gráfico de predicción para el modelo de RLM representado en la ecuación 3.3 del Anexo 2
Como puede verse, los modelos de RLM obtenidos explican pobremente la variable dependiente; ya que todos los valores de ajuste ( ) se encuentran por debajo de 0.5, al igual (como es de esperar) que los valores de .
Al realizar un análisis de los resultados de los gráficos de regresión y predicción y los parámetros estadísticos del modelo puede observarse que posee una pobre capacidad de ajuste a los datos experimentales, debido a esto se realizó posteriormente la identificación de los compuestos outliers con el objetivo de mejorar el modelo estadísticamente.
Identificación de outliers
Un paso crucial en la construcción de modelos, resulta la detección de compuestos atípicos (“outliers”), que se definen como puntos que no se ajustan o son pobremente predichos; que afectan los parámetros estadísticos. Es decir, la identificación de los outliers busca un mejoramiento cualitativo y cuantitativo del modelo, y, aunque no es necesario justificar la extracción de estos puntos, se recomienda determinar la razón para su peculiaridad en aquellos casos en que sea posible (Verma, 2005). Existen varias técnicas para detectar la presencia de outliers, tales como: los análisis de los residuales estandarizados, los residuales
32
studentizados, el método de Leverage, la estadística DFITS, la distancia de Cook y el método de “dejar varios fuera”.
En este trabajo se eliminaron 60 outliers en busca de un mejoramiento cualitativo y cuantitativo del modelo, para esto se utilizó el método de “dejar varios fuera”. Se muestran a continuación, para el mejor modelo de regresión lineal múltiple obtenido luego de eliminar los outliers, con el objetivo de describir la actividad antimalárica expresada como EC50_nM de las moléculas de la base de datos Malaria Box, los parámetros estadísticos y sus correspondientes gráficos de regresión y predicción:
Parámetros estadísticos:
Tabla 4. Parámetros estadísticos del modelo de RLM sin los compuestos outliers, ecuación 3.4(Anexo 3)
N R2 R Q2 Q2boot F Scv y-sc s
257 0.5134 0.76 0.453 0.4281 18.16 281.185 298.130 289.803
Gráficos de regresión y predicción:
Figura 10. Gráfico de Regresión para el modelo de RLM representado en la ecuación 3.4 del Anexo 3
33
Figura 11. Gráfico de predicción para el modelo de RLM representado en la ecuación 3.4 del Anexo 3
Como puede observarse en los gráficos anteriores y en los parámetros estadísticos, el modelo lineal mejora un tanto la capacidad de ajuste a los datos experimentales con respecto al primer modelo expuesto, luego de eliminar los compuestos outliers. El valor de es más cercano a uno, presenta un valor aceptable y el valor de la diferencia: − no excede a 0.3, lo que significa que no existe un sobreajuste del modelo, ni presencia de variables irrelevantes, ni de outliers en la Data.
3.2.3- Discusión de los resultados de la regresión lineal
Existen diferentes opiniones en relación con la interpretación de los parámetros estadísticos y con el establecimiento de los valores extremos mínimos que los mismos deben poseer para considerar “aceptados” o “validados” los modelos objetos de estudio.
Con el objetivo de lograr agrupar el criterio de varios autores se tomó como referencia algunos artículos de revisión muy citados que plantean:
: Es el parámetro utilizado por lo general para estimar el ajuste del modelo al comportamiento estudiado (en este caso RLM). Sus valores, se plantea, deben estar lo más cercanos posibles a 1.0, pero no debe considerarse a como parámetro único, debido a que existen muchas posibilidades de sobreajustes
34
arbitrarios (Eriksson, 2003). Son aceptados aquellos resultados en los cuales se exhiban valores de por encima de 0.6 (Tropsha, 2010).
: Expresa el poder predictivo del modelo. Es imposible obtener altos valores de sin haber obtenido altos valores de . Generalmente se acepta un >0.5 y >0.9 se considera excelente (pero estos mínimos dependen de la aplicación del estudio) (Tropsha, 2010).
− : La diferencia entre ellos no debe exceder a 0.3. Valores mayores pueden indicar: un sobreajuste del modelo, la presencia de variables irrelevantes o de outliers en la Data (L. Eriksson, 2003).
El criterio de selección de la RLM, para comenzar el presente trabajo, fue debido, fundamentalmente, a la simplicidad de esta herramienta. Muchas propiedades biológicas han sido satisfactoriamente modeladas con el empleo de la RLM; de hecho, es aceptado que representa, en el caso de las relaciones cuantitativas estructura-actividad; la más empleada de las técnicas de regresión, y la actividad antimalárica no es la excepción (Jorge, 2015).
Sin embargo, los resultados poco significativos, responden a que se modela una actividad biológica; esta es una práctica muy compleja ya que depende, además de la estructura, de otros factores no controlables por el experimentador como, por ejemplo, el efecto de la matriz biológica sobre la capacidad individual de acción de cada una de las moléculas. Sin embargo, se asume que la estructura química posee el protagonismo en cuanto a influenciar el valor de la propiedad.
Podría argumentarse además que la estructura de las moléculas no tenga una relación lineal con la propiedad evaluada, al menos cuando están descritas con los descriptores moleculares utilizados, esto influye en la capacidad de ajuste y de predicción del mejor modelo obtenido. Por lo tanto, se deben desarrollar técnicas no lineales para evaluar el comportamiento de las mismas.
El método aleatorio de AG tiende a caer en máximos locales y por ende a no evaluar otras combinaciones donde puede encontrarse el máximo global o máximos locales con mayor cercanía al máximo global y esto puede oscurecer los resultados de la RLM. Para evitarlo, fueron construidas varias poblaciones y se migró cada determinado tiempo hacia la que contenía los mejores modelos, esto
35
modificó y enriqueció constantemente las poblaciones y disminuyó así esta posibilidad.
Adicionalmente a esto, no existen estudios previos de regresión para esta base de datos, por lo que no se pudo comparar el desempeño de los descriptores. Así mismo no se pudo conocer hasta qué punto es válido o no el conjunto de métodos utilizados con respecto a otros, frente a las mismas condiciones.
3.3- Aplicación de técnicas no lineales
Una vez desarrolladas las mejores RLM, se hace además necesario recurrir a la aplicación de técnicas no lineales debido a que puede que el modelo se ajuste con mayor precisión a una regresión del tipo no lineal.
3.3.1- Selección de atributos para la técnica no lineal
Para las técnicas no lineales es necesario también hacer una selección de los mejores atributos, o sea, los que tengan una mayor capacidad de ajuste al sistema, los más variables y ortogonales entre ellos y los que más influyen en la construcción del modelo. Una práctica usual en el aprendizaje automatizado es que el número de parámetros de los que dependa un modelo debe ser inferior al número de casos empleados en su ajuste, lo cual permite reducir la posibilidad de sobre ajustar el modelo a los datos de entrada lo que disminuye por consiguiente su capacidad predictiva.
La técnica no lineal utilizada (SVM) construye un modelo de regresión con todas las variables que le son introducidas, con el objetivo de aumentar la robustez de los mismos se realizó una selección de variables mediante la utilización, primeramente, del evaluador “WrapperSubsetEval” (Ron Kohavi, 1997) implementado en el software WEKA acoplado a una búsqueda “BestFirst”. Esta técnica de selección de parámetros busca el espacio de subconjuntos de atributos por asociación, con una facilidad de búsqueda de retroceso. Coloca un número consecutivo de nodos y controla el nivel de búsqueda. “BestFirst” puede comenzar con el conjunto vacío de atributos y búsqueda hacia adelante, o con el set lleno de atributos y búsqueda hacia atrás, o también en cualquier punto y cualquier búsqueda en ambas direcciones. Este estudio reveló una primera reducción de la data de unos 7000 descriptores a unos 1000.
36
Como segundo paso para la selección de un número óptimo de variables, se utilizó un filtro de redundancia que empleó un análisis de conglomerados que utiliza el coeficiente de correlación de Spearman como métrica de similitud. El valor de corte fijado fue 0.9, lo que implica que entre miembros de conglomerados distintos no exista una correlación igual o superior a este valor. De todos los clústeres obtenidos se determinó la variable más próxima a su centroide y esta fue elegida como representante de todos los miembros del clúster. De esta forma se redujo la cantidad de atributos a 119.
Para lograr un mejor ajuste, como tercer paso en la selección de atributos, se acopló al ``WrapperSubsetEval`` una búsqueda genética (Goldberg, 1989b), que identificó los atributos que mayor exactitud mostraron en la validación cruzada de 10 pliegues. Cumplen con estas condiciones 76 atributos para la construcción del modelo de regresión no lineal.
3.3.2- Modelos no lineales
Regresión no lineal con índices de derivada de Jenssent
Con el universo de descriptores basados en la entropía de Jenssent previamente calculados, se procedió a la aplicación de técnicas no lineales con la ayuda del software WEKA, el cual está provisto de algoritmos para este tipo de modelación, para este caso específico se utilizó una Máquina de Vectores de Soporte para la regresión (SMOreg). Se evaluaron 317 casos ya que los 83 restantes no tenían reportados los valores de actividad antimalárica.
Se desarrolló un modelo no lineal para la actividad antimalárica con el método de las Máquinas de Vectores de Soporte para la regresión (SMOreg) implementado en el software WEKA, se empleó una complejidad unitaria (C = 1) y la función PoliKernel con exponente 1. En dicho modelo influyeron atributos basados en heteroátomos y donantes de hidrógeno fundamentalmente, que son los que poseen una mejor capacidad de ajuste con la regresión.
Parámetros estadísticos:
El modelo se entrena con los 317 casos del conjunto de datos, se obtienen las métricas de bondad de ajuste relacionadas a continuación.
37
Tabla 5. Parámetros estadísticos del mejor modelo (Jenssent)
N R2 R s
Ajuste 317 0.5811 0.7623 274.0328
Robustez 317 0.4334 0.6584 368.7838
Se presenta además una gráfica de la actividad predicha contra los valores experimentales de cada caso.
Gráfico de regresión:
Figura 12. Gráfico de regresión que evidencia la capacidad de ajuste del modelo no lineal
La robustez del modelo se evalúa con la utilización de la validación cruzada ya que mediante esta se introduce cierto grado de perturbación a los datos y se mide el ajuste de los modelos en cada perturbación según la influencia de las mismas. Para que un modelo se considere robusto no debe variar en más de un 10% el coeficiente de correlación entre los resultados del ajuste y de la validación cruzada. y = 0.4495x + 403.33 R² = 0.5811 -500 0 500 1000 1500 2000 2500 3000 3500 0 1000 2000 3000 4000 5000 y p re d ic h a y experimental
Gráfico de regresión
Series1 Lineal (Series1)38
Gráfico de regresión de la validación cruzada:
Figura 13. Gráfico de regresión que evidencia el nivel de robustez del modelo no lineal.
Como se observa en los gráficos anteriores y en los parámetros estadísticos, el modelo no lineal mejora un tanto la capacidad de ajuste a los datos experimentales con respecto a la técnica de RLM para los mismos atributos; sin embargo, no son resultados totalmente satisfactorios. Con respecto a la robustez del modelo, los valores del coeficiente de correlación difieren en un 13%, por lo que el modelo puede considerarse medianamente robusto. Estos resultados no tan satisfactorios pueden deberse a que no fueron extraídos compuestos atípicos del conjunto de entrenamiento lo que puede afectar la robustez del ajuste.
En búsqueda de una mejora en la capacidad de ajuste y predicción del modelo no lineal pueden combinarse además otros descriptores moleculares basados en derivadas del grafo y teoría de la información (Conditional, Joint y Mutual) que son ortogonales a los utilizados (Barigye et al., 2013c), lo que resulta en una recodificación de las estructuras para una mayor universalidad de información estructural. y = 0.426x + 427.65 R² = 0.4334 -1500 -1000 -500 0 500 1000 1500 2000 2500 3000 3500 0 1000 2000 3000 4000 5000 y p re d ic h a y experimental
Gráfico de regresión
Series1 Lineal (Series1)39
Regresión no-lineal basada en la combinación de las derivadas trabajadas (Conditional, Joint, Mutual y Jenssent) y con la extracción de compuestos outliers
De la combinación de las mejores variables de las cuatro derivadas trabajadas (Conditional, Joint, Mutual y Jenssent) se obtuvo un modelo para describir la actividad antimalárica expresada como EC50_nM de las moléculas de la base de datos Malaria Box.
En este caso también se separaron los 60 outliers eliminados anteriormente por el método de “dejar varios fuera”, en busca de un mejoramiento cualitativo y cuantitativo del modelo.
Con la ayuda del software WEKA, se pasó a la aplicación de técnicas no lineales, para este caso específico se utilizó una Máquina de Vectores de Soporte para la