PART II SESSION 8 through SESSION 12
Step 4 Review
Puede suceder que la estructura del modelo ajustado es particularmente sensible a una o mas observaciones 'en el conjunto de datos. Tales observaciones pueden detectarse usando diagnostics que estan disenados para resaltar observaciones que influyen al conjunto completo de parametros estimados en el predictor lineal. Estos diagnostics proveen de informacion adicional a la provista
por la delta-beta. En particular, el excluir alguna observacion dada del conjunto de datos no tendra gran influencia sobre cualquier parametro estimado en particular, y no sera descubierto desde un estudio de los estadisticos delta-beta. Sin embargo, el cambio en el conjunto de parametros estimados puede ser tal que la forma de la funcion de riesgo estimada, o los valores de las estadisticas descriptivas basadas en el modelo ajustado, cambien marcadamente cuando esa observacion dada es removida. Los estadisticos para analizar la influencia de observaciones sobre el conjunto de parametros estimados tambien tienen la ventaja de que hay un unico valor del diagnostico para cada observacion. Esto los hace mas sencillos de usar que los diagnostics tales como los residuos score y las delta-betas.
Existen varios diagnostics para analizar la influencia de cada observacion sobre el conjunto de parametros estimados, se mencionaran dos de ellos. Una forma de analizar la influencia de cada observacion en el ajuste global del modelo es examinar la cantidad para la cual el valor de menos dos veces el logaritmo de la maxima verosimilitud parcial, - 21og£, bajo el modelo ajustado, cambia cuando
cada observacion en turno es omitida. Se escribe -21ogL(0) para el valor del logaritmo de la maxima verosimilitud parcial cuando el modelo es ajustado para todas las n observaciones y - 21o g p a r a el valor del logaritmo de la maxima
verosimilitud parcial de las n observaciones cuando los parametros estimados se calculan despues de omitir la i-esima observacion del ajuste. El diagnostico
2{logZ(/?)-logZ(/?(0)} puede ser util en el estudio de la influencia.
Pettitt y Bin Daud (1989) muestran que una aproximacion a este desplazamiento de la verosimilitud es
donde d. es el vector de px 1 cuyo j -esimo componente esta dado por
covarianza de 0, el vector de parametros estimados. Los valores de este estadistico por consiguiente pueden ser sencillamente obtenidos a partir de terminos usados en calcular las delta-betas para cada variable predictora en el modelo. Una grafica “index” o una grafica de los desplazamientos de la verosimilitud contra el orden gradual de los tiempos de sobrevivencia, provee un resumen informativo visual de los valores del diagnostico. Son influyentes las observaciones que tienen valores relativamente largos de diagnostico. Las graficas de diagnostics contra variables predictoras no se recomiendan ya que como demostraron Pettitt y Bin Daud (1989), estas graficas pueden tener un patron deterministic aun cuando el modelo ajustado sea el correcto.
Otro diagnostico que se puede utilizar para analizar el impacto de cada observacion sobre el conjunto de parametros estimados esta basado en la matriz simetrica nxn
y vfo) es la matriz de varianza-
dj = (*,v - a# )+ exp(0' Xi ) £ Sj v
t j < ti L
b = a’v(0)a
donde' A’ es la matriz de nxp formada a partir de los vectores dj y usada en la ecuacion A'v(0). Un argumento de algebra lineal muestra que los valores absolutos de los elementos del eigenvector de nx1 asociado con el mayor
eigenvalor de la matriz B , estandarizados para tener normaix igual a l a traves de la division de cada componente por la raiz cuadrada de la suma de los cuadrados de todos los componentes del eigenvector, es una medida de la sensibilidad del ajuste del modelo para cada una de las n observaciones en el conjunto de datos. Se denota a este eigenvector por 1 ^ , el i -esimo elemento de
1inax es una medida de la influencia de la t-esima observacion sobre el conjunto de **
parametros estimados. El signo de este diagnostico es irrelevante, por lo que se recomiendan para su uso general, las graficas basadas en los valores absolutos [imax | - Eas graficas "index" de estos valores graficadas contra el orden gradual de los tiempos de sobrevivencia, y contra las variables predictoras en el modelo, pueden utilizarse para analizar la influencia.
La estandarizacion para tener norma unitaria quiere decir que los cuadrados de los elementos de 1^ deben sumar 1.0. Las observaciones, para las cuales los cuadrados de los elementos del eigenvector explican una proporcion sustancial del total de la suma de cuadrados de la unidad, seran aquellas que son mas influyentes. Por consiguiente, los grandes elementos de este eigenvector corresponderan a las observaciones que tienen mayor efecto sobre el valor de la funcion de verosimilitud. Un punto final para hacer notar es que a diferencia de otros diagnostics, una grafica de los elementos de l)nax contra las variables predictoras no tendra un patron determinlstico si el modelo ajustado es correcto. Esto quiere decir, que las graficas de los valores absolutos de los elementos de limx contra las variables predictoras pueden ser utiles para analizar si hay rangos particulares de valores de las variables reales sobre las cuales el modelo no ajusta bien.
II.5.6.4 Tratam iento de observaciones influyentes
Una vez que se encontro que las observaciones son excesivamente influyentes, es muy dificil ofrecer algun consejo firme sobre que se debe hacer con ellas. Ya que mucho depende del trasfondo cientifico del estudio.
Cuando sea posible, se debera verificar el origen de las observaciones influyentes; son frecuentes los errores al transcribir y registrar los datos
categoricos y numericos; si se encuentran errores, es necesario corregir los datos y repetir el analisis. Si el valor observado del tiempo de sobrevivencia u otras variables predictoras es inadmisible y no es posible una correction entonces la observation correspondiente debe omitirse de la base de datos antes de repetir el analisis.
En muchas ocasiones no sera posible confirmar que los datos correspondientes a una observation influyente son validos. Con toda certeza las observaciones influyentes no deberan entonces rechazarse tajantemente. En tales circunstancias, lo mas apropiado por hacer sera establecer el efecto actual sobre las inferencias extraidas del analisis. Por ejemplo, si un riesgo relativo o la mediana del tiempo de sobrevivencia se utilizan para cuantificar el tamano del efecto del tratamiento, se pueden contrastar los valores de estos estadisticos con y sin los valores influyentes. Si la diferencia entre los resultados es tan pequena como para que no sea de importancia practica, las observaciones cuestionadas se pueden retener. Por otro lado, si el efecto de remover las observaciones influyentes es lo suficientemente grande como para ser de importancia, se debe reportar tanto el analisis basado en el conjunto de datos completo como el analisis basado en el reducido.