Chapter 2 A Label-Structured Partial Differential Equation Model
2.5 Discussion and Remarks
Después de definidos los nuevos IFIs, es necesario analizar si cumplen con los requerimientos básicos para un DM planteados por Randić(Randić, 1991) , para esto se realizaron algunos estudios estadísticos de naturaleza distinta con el objetivo de comprobar su calidad y cuán bien codifican la información estructural química, además se realiza una comparación con los otros IFIs definidos en la literatura. Para la comparación se usaron los índices implementados en el software DRAGON,(Todeschini et al., 2002) el DRAGON es un software representativo en el campo de los DMs ya que posee una colección diversa y numerosa de DMs entre los que se encuentran definidos los únicos 47 IFIs existentes en la actualidad.
2.3.1 Estudio basado en el AV.
Una forma de comprobar la calidad de los 6 IFIs propuestos es medir de alguna forma la variabilidad de los mismos, para esto se puede hallar la Entropía de Shannon al conjunto de IFIs calculados a una Base molecular lo suficientemente grande. Se empleó un AV por medio del software IMMAN(Barigye et al., 2011). Con esta técnica se estimó la cantidad de información codificada por los diferentes parámetros moleculares, como entidades independientes y luego se compararon los valores entrópicos de estos. Es importante en este método definir el número de intervalos discretos a emplear (esquema de binning), el cual es único para todas las variables que se comparen, en este caso se analizó una Base molecular de 1940 moléculas (Spectrum), por lo que el esquema de binning usado fue precisamente de 1940 intervalos, esta técnica permite que los DMs de diferentes unidades y rangos de valores sean comparables. Adicionalmente, para comparaciones lógicas, es deseable que los conjuntos de datos que se comparen tengan el mismo número de variables, de no ser así, es necesario aplicar puntos de corte según la cantidad mínima de variables.(Barigye, 2013). Finalmente los mejores 5 IFIs en cuanto a variabilidad fueron seleccionados para validarlos en análisis estadísticos posteriores.
2.3.2 Estudio basado en el ACP.
El método de ACP fue desarrollado con la ayuda del software STATISTICA (StatSoft, 2011) y la estrategia rotacional usada para obtener la carga de los factores a partir
procedimiento rotacional es obtener un patrón lo más claro posible de cargas( Por ejemplo: factores marcados con alta carga para algunas variables y baja carga para otras) sin que se pierda la ortogonalidad entre los factores. Para hallar el número máximo de factores se usó el criterio de Kaiser(Kaiser, 1960 ), este criterio es el más comúnmente usado y plantea que: ‘’Se deben retener solo los factores con valores propios mayores a 1, esto es que
logren representar al menos el contenido de una variable original ‘’, para este estudio se
hallaron solamente 10 factores. La Base molecular utilizada fue PrimScreen15, con 15000
moléculas originalmente, las cuales, después de un proceso de limpieza quedaron en 13750. Las comunalidades (carga de factores) que se tuvieron en consideración fueron las mayores a 0.7. Fueron comparados los 5 nuevos IFIs escogidos del AV con el conjunto de 47 IFIs del software DRAGON en base a la información estructural captada por los mismos, para ello se calcularon 92 variables(45=9 criterios de partición *5 IFIs nuevos escogidos+47 IFIs del DRAGON).
2.3.3 Estudio basado en la Modelación QSPR usando RLM-AG.
Para esta modelación se utilizó la Base de Datos de 34 moléculas derivadas del compuesto
2-Furiletileno, esta base de moléculas ha sido utilizada por muchos autores para validar los
IFIs propuestos en la literatura. Se definieron 90 variables independientes(18 criterios de partición*5 IFIs) y una variable dependiente (propiedad experimental LogP) con el objetivo de evaluar la capacidad predictiva del coeficiente de partición octanol/agua (LogP) partiendo de los IFIs propuestos, los modelos predictivos se calcularon usando el software Moby-Digs(Todeschini et al., 2004). La herramienta de optimización estocástica usada fue la Regresión Lineal Múltiple con Algoritmo Genético (RLM-AG) y la configuración del AG empleada fue:
Tamaño inicial de la población: 100 cromosomas (variables). El AG converge
rápidamente (200 generaciones).
Probabilidad de cruzamiento/mutación: 0.7.
Número de iteraciones: Los modelos QSPR convergieron en este caso en un número
Los modelos obtenidos del AG fueron optimizados evaluando su poder predictivo usando
el método de Validación Cruzada „‟dejando uno fuera‟‟:Q2
loo, la validación de los modelos finales se realizó por medio de las técnicas de Remuestreo o bootstrapping (Q2boot) y revuelto o Y-Scrambling [a (R2), a (Q2)]. La búsqueda de los mejores modelos finales puede basarse en términos del coeficiente de correlación más elevado (R2), o en ecuaciones de la razón F (razón de Fisher) más elevada. Muchos autores consideran elevados valores de Q2loo (por ejemplo, Q2loo > 0.5) como un indicador de elevado poder predictivo de un modelo QSAR/QSPR. Sin embargo, es conocido que esta afirmación es solo cierta para datas pequeñas (< de 100 casos), y que en datas de gran dimensionalidad solo es una condición necesaria pero no suficiente para afirmar que un modelo posee un adecuado poder predictivo.(Golbraikh and Tropsha, 2002)
Finalmente se escogieron los modelos de 7, 6, 5, 4, 3 y 2 variables independientes con mejor poder predictivo Q2 , mejor poder predictivo promedio Q2boot, coeficiente R2 más elevado y valores más bajos de a (R2) y a (Q2). Hay que destacar que todos estos parámetros para elegir el modelo varían de forma distinta y por lo tanto es necesario mantener un nivel de compromiso a la hora de elegir los mejores modelos.