Master Data Management and Data Virtualization

La teoría del algoritmo U-PLS en combinación con bilinealización residual (RBL) [67] ha sido publicada recientemente [68]. El modelo U-PLS/RBL, constituye un método de calibración multivariante de segundo orden que presenta la “ventaja de segundo orden” [67, 68]. Este método es particularmente interesante debido a que recientes aplicaciones con datos de segundo orden ponen de manifiesto que el algoritmo U-PLS presenta la capacidad de modelar datos que no son estrictamente trilineales,

característica que no presentas los algoritmos PARAFAC y BLLS/RBL [69-71]. 70 71

La combinación de N-PLS con RBL fue sugerida por Öhman y Geladi en 1990 [67]. Recientemente, A. Olivieri ha introducido el algoritmo N-PLS combinado con RBL, para datos de segundo orden, en el programa de calibración MVC2 que empleamos en esta memoria y que expondremos posteriormente. Este método aún no ha sido descrito en ningún trabajo, pues está siendo probado en nuestros laboratorios con datos simulados y experimentales, como los expuestos en esta memoria.

En estos métodos, la información de la concentración se emplea en primer lugar durante el paso de calibración, sin incluir los datos de la muestra desconocida, dejando

Tesis Doctoral

138

A continuación, se describen con detalle los modelos U-PLS/RBL y N- PLS/RBL.

¾ U-PLS/RBL

Cuando se emplean datos de tres vías con el método U-PLS, la matriz de datos original es transformada en vectores (una dimensión). Ello se consigue desdoblando (unfolding) la información original de la matriz de datos de dos dimensiones. La información de la concentración, se emplea inicialmente en el paso de calibración, en el que no se incluye la muestra desconocida [66].

Las I matrices de datos de segundo orden de la calibración, Xi,cal (de tamaño

JxK, donde J y K son el número de datos en cada una de las dos dimensiones) son

primero vectorizadas mediante el proceso de desdoblamiento (unfolded) en vectores de

tamaño JK×1. A continuación, el modelo U-PLS se calibra con estos datos y con el

vector y (Ix1, donde I es el número de muestras de calibración) de las concentraciones

de calibración. Esto nos proporciona un conjunto de vectores directores (loadings) P y

vectores directores ponderados (weight loadings) W (ambos de tamaño JK×A, donde A

es el numero de factores necesarios para modelar la matriz de calibración), así como

también los coeficientes de regresión b (de tamaño A×1). El parámetro A puede

seleccionarse por técnicas tales como validación cruzada y aplicando el criterio de Haaland y Thomas [4].

Si en las muestras de validación no aparece ningún componente no calibrado, b podría ser empleado para estimar la concentración del analito de acuerdo con:

yu = tuT b (ec. II.13.)

donde tu (de tamaño Ax1) es el score de la muestra de validación, obtenido mediante

proyección de los datos desdoblados de la muestra de validaciónvec(Xu) (de tamaño

tu = (WT P)–1 WT vec(Xu) (ec. II.14.)

donde vec() implica el operador de vectorización. Nótese que PLS es un método de variables latentes, y no requiere en principio información previa, como los espectros o la evolución en el tiempo del analito, para operar con éxito.

Cuando aparecen componentes no calibrados en Xu,los scores obtenidos de la

ecuación II.14 no son adecuados para predecir la concentración del analito mediante la ecuación II.13. En este caso, los residuos obtenidos en la etapa de predicción mediante

U-PLS (sp) serán anormalmente grandes comparados con el ruido instrumental típico.

sp = || ep || / (JK–A)1/2 = || vec(Xu) – P (WT P)–1 WT vec(Xu) || / (JK–A)1/2 =

= || vec(Xu) – P tu || / (JK–A)1/2

(ec. II.15.)

donde || · || indica la norma de Euclidiana.

Esta situación puede resolverse por un procedimiento separado llamado bilinealización residual, RBL, el cual ya ha sido descrito en la literatura, y está basado en una descomposición en valores singulares (SVD) para modelar el efecto de los

interferentes [68]. RBL intenta minimizar la norma del vector residual eu, calculado

durante el ajuste de los datos de la muestra a la suma de las contribuciones relevantes. Para un solo componente inesperado la expresión es la siguiente:

vec(Xu) = P tu + vec[gint bint (cint)T] + eu (ec. II.16.)

donde bint y cint son los vectores en las dos dimensiones (ejemplo: emisión-tiempo) de

Tesis Doctoral

140

donde Ep es la matriz de J×K obtenida después de la redistribución del vector ep de

JK×1 de la ecuación II.15, y SVD1 indica el primer componente principal.

Durante el procedimiento de RBL, P se mantiene siempre constante a los valores

de calibración, y tu varía hasta que || eu || se minimiza. La minimización puede ser

llevada a cabo utilizando tanto el procedimiento de Gauss-Newton (GN) como también

un algoritmo alternante, en ambos casos comenzando con tu de la ecuación II.14. Una

vez que || eu || se minimiza en la ecuación II.16, las concentraciones del analito son

proporcionadas por la ecuación II.13, introduciendo el vector final tu encontrado por el

procedimiento de RBL. En todas las aplicaciones realizadas en esta memoria, hemos empleado el procedimiento de GN para lograr la RBL.

El paso crítico para una resolución exitosa por RBL es el hecho de que la solución provista por la minimización es única. Esto puede ser evaluado por el análisis

de || eu || en función de tu, el cual debería presentar un solo mínimo global, confirmando

que el procedimiento de RBL conduce a este mínimo.

El número de componentes no calibrados Nint puede ser evaluado comparando el

residuo final su con el nivel de ruido instrumental:

su = || eu || / [JK – (A+ Nint)]1/2 (ec. II.18.)

donde eu viene de la ecuación II.16. Una gráfica que represente su frente al número de

interferentes, mostraría un decrecimiento del valor de éste, comenzando con un valor sp

cuando Nint = 0, hasta estabilizarse con un valor comparable con el del ruido

¾ N-PLS/RBL

Como ya se mencionado, en el método N-PLS, aplicado a datos de segundo orden, la información referente a la concentración de los analitos se introduce en la etapa de calibración sin incluir los datos de la muestra desconocida. Las matrices de

datos de las I muestras de calibración, junto con el vector de concentraciones y (de

tamaño Ix1) se emplean para obtener las matrices de loadings Wj_{y W}k_{(de tamaños}_JxA

y KxA, siendo A el número de factores), así como los coeficientes de regresión b (de

tamaño Ax1) [72]. El número de factores A puede seleccionarse utilizando la técnica de

validación cruzada [4].

Al igual que ocurría con el algoritmo U-PLS, en ausencia de interferencias, b puede emplearse para estimar la concentración del analito calibrado en la muestra desconocida, de acuerdo a:

yu = tuT b (ec. II.19.)

donde tu (de tamaño Ax1) es el vector score de la muestra desconocida, obtenido

mediante la adecuada proyección del conjunto de datos sobre las matrices loadings de calibración.

Cuando aparecen componentes no calibrados en la muestra desconocida, los

scores obtenidos no son adecuados para predecir la concentración del analito mediante la ecuación II.19. En este caso, los residuos que se obtienen en la etapa de predicción

mediante N-PLS (sp, ecuación II.20.) serán anormalmente grandes comparados con el

nivel de ruido instrumental:

Tesis Doctoral

142

la ventaja de segundo orden debido a la presencia de interferencias en la muestra desconocida, puede aplicarse el procedimiento de bilinealización residual, RBL. Este procedimiento, minimiza los residuos y estima los perfiles de los interferentes.

Durante el procedimiento RBL, los loadings de ponderación (weight loadings)

Wj y Wk se mantienen constantes e iguales a los valores obtenidos en la calibración y tu

se varía hasta que los residuos se minimizan. El nuevo vector tu obtenido permite

predecir la concentración del analito mediante la ecuación II.19.

Como se mencionó en el apartado anterior, el número de componentes no calibrados puede evaluarse comparando el residuo final con el nivel de ruido instrumental.

In document Beyond Enterprise Resource Planning (ERP): The Next Generation Enterprise Resource Planning Environment (Page 42-44)