The Methodology Framework for Learn - gies using the Digital Learning En

gies using the Digital Learning En

3: The Methodology Framework for Learn

En este epígrafe de la metodología se comprueba la existencia de datos ausentes y valores atípicos en la muestra, las consecuencias de este tipo de problemas sobre las ecuaciones estructurales y las medidas que se han adoptado para resolverlas. El tratamiento estadístico de la base de datos y de la muestra se realizó con el paquete estadístico SPSS 15.0.

4.2.5.1 Valores ausentes

La información suministrada por Lipper y Vigeo sobre las variables

exógenas empleadas en la investigación presentaba, en algunos casos, valores ausentes o perdidos (missing values). Concretamente, la variable que presenta mayor número de datos desconocidos es comisiones de gestión, con 42 observaciones ausentes, lo que se corresponde con el 20,4% de la muestra. A continuación la siguen, con un porcentaje muy bajo de casos, las variables tamaño con 18 fondos (un 8,7% de la muestra) y aquellas variables que recogen características específicas de los fondos sociales, como el criterio de selección o screening con 9 fondos (un 4,4% de la muestra) y la calidad de la información empleada en la decisión de inversión con 15 valores (7,3% de la muestra). El resto de variables exógenas empleadas en la investigación no presentan ningún problema por este motivo, por lo que se incluyen en la muestra el 100% de las observaciones.

Como señalan los profesores Uriel y Aldás (2005), lo importante en estos casos no es la cantidad de datos perdidos sino si los mecanismos que provocan esta ausencia son completamente

aleatorios o no. Para contrastar este hecho se ha llevado a cabo un contraste de aleatoriedad conjunta de los datos ausentes mediante la prueba MCAR de Little. Esta prueba hace una comparación de los datos ausentes con lo que se esperaría si los datos ausentes se distribuyesen de una forma completamente aleatoria. El resultado obtenido con esta prueba ha sido de 4,39 (este estadístico de contraste sigue una distribución chi-cuadrado con 6 grados de libertad), por lo que el resultado obtenido no es estadísticamente significativo. Por tanto, el proceso de ausencia de datos en la muestra puede ser considerado como completamente aleatorio.

En el caso de que los valores ausentes se deban a procesos completamente aleatorios (MCAR), los valores desconocidos se han venido tratando de diferentes maneras en el contexto de los modelos de ecuaciones estructurales (Coenders et al., 2005):

1. La eliminación completa del caso (listwise), el cual ignora

completamente las observaciones que tienen alguna variable ausente, con lo que se puede llegar a despreciar una gran cantidad de datos. Como resultado, es un método ineficiente, que lleva a contrastes poco potentes y errores estándar elevados.

2. La eliminación por parejas (pairwise), usa todas las observaciones que tienen ambas variables disponibles al calcular cada covarianza. Este método es más eficiente (no desecha información útil) que el anterior, pero no permite calcular matrices de momentos de cuarto orden, con lo que los métodos robustos frente a desviaciones de la normalidad, como los mínimos cuadrados no ponderados (ULS) o el método asintóticamente libre de distribución (ADF), no están disponibles. Las estimaciones obtenidas por este método son consistentes, eficientes y conducen a inferencias correctas si los datos están distribuidos normalmente y faltan al azar. 3. La sustitución por la media reemplaza el valor ausente por la

media de la variable para todas las observaciones en que la variable está presente. Este método sesga las varianzas y las covarianzas (y con ellas los parámetros del modelo), incluso

cuando los datos faltan completamente al azar, y por lo tanto no debe utilizarse nunca.

4. Los métodos de imputación mediante regresión o maximización por verosimilitud (EM), tratan de predecir los datos ausentes a partir de las variables presentes para el individuo. Estos métodos de imputación funcionan mejor cuanto más correlacionadas estén las variables con valores ausentes y las variables predictoras. No obstante, estos métodos tienden a aumentar las correlaciones porque los valores imputados ajustan perfectamente las relaciones, cosa que no ocurre con los datos originales. Para evitarlo, se puede añadir al valor imputado un error aleatorio. Aún así, estos métodos tienden a subestimar los errores estándar, porque tratan como conocidos datos inciertos. Para corregir este problema, se puede repetir la imputación varias veces (imputación múltiple).

5. La estimación con múltiples grupos define grupos para cada uno de los posibles patrones de valores perdidos, es decir, grupos de observaciones a las que les faltan y presentan datos exactamente en las mismas variables. Entonces se estima el mismo modelo para cada uno de los grupos con la restricción de que todos los parámetros deben ser iguales entre grupos. No obstante, este método sólo puede utilizarse cuando hay un reducido número de patrones de valores perdidos.

6. Finalmente, la estimación de las ecuaciones mediante el método de máxima verosimilitud con información completa

(Full Information Maximum Likelihood, FIML) se basa, al

igual que el método EM, en la máxima verosimilitud con datos ausentes al azar, pero en este caso la estimación se hace en una sola etapa. Con este método, los errores estándar y contrastes de hipótesis que se realicen serán correctos.

Es muy importante tener en cuenta que todos estos métodos serán válidos siempre que los datos ausentes falten al azar, si no todos ellos proporcionarán estimaciones sesgadas. Aún así, el método de estimación por máxima verosimilitud con información completa

parece tener un sesgo menor que el resto de métodos (Coenders et al., 2005).

En este trabajo se ha desechado aplicar el método listwise,

eliminando de la muestra todos los fondos que no presentan datos de alguna o algunas de las variables explicativas del modelo, debido a la gran pérdida de observaciones que se tiene con él (la muestra sería de tan solo 66 fondos sociales) y los problemas que generaría por la falta de eficiencia y de potencia en los contrastes de hipótesis, así como los métodos de imputación por los problemas que pueden generar de mayor correlación, no real, entre las variables exógenas, y de subestimación de los errores estándar. Por tanto, se ha considerado que el procedimiento más apropiado para resolver este problema es el utilizar métodos de estimación que tengan en cuenta esta falta de información (máxima verosimilitud con información completa).

4.2.5.2 Valores atípicos

Los datos de la muestra se han analizado a priori para comprobar si existían valores excepcionales y/o influyentes que pudieran modificar la estimación de los parámetros del modelo de ecuaciones estructurales o comprometer el cumplimiento de sus condiciones de aplicación.

Para evaluar los casos atípicos multivariantes existe la medida D2 de Mahalanobis. Esta medida mide la distancia de cada observación en un espacio multidimensional respecto del centro medio de las observaciones utilizando simultáneamente todas las variables explicativas del modelo (Coenders et al., 2005). Hair et al. (1999) sugieren utilizar un nivel de significación conservador (por ejemplo, un coeficiente del 0,1%) como valor umbral para la designación como caso atípico.

En el caso de muestras con datos ausentes, el programa AMOS no calcula el estadístico D2, por lo que se procedió de la manera indicada por los profesores Uriel y Aldás (2005). Así, tomando un umbral de significación conservador del 0,1%, se identificaron 3

valores atípicos con distancias de Mahalanobis alejadas significativamente del punto central del conjunto de observaciones de la muestra (véase Tabla 4.3). De estas 3 observaciones, una es un fondo social y las otras dos son fondos convencionales. Observando la tabla 4.3 se detecta que en los casos 1 y 2 el tamaño de los fondos es muy superior al valor medio muestral, mientras que en el caso 3, el fondo presenta un tamaño, antigüedad y exposición a los tipos de interés a corto plazo significativamente superiores a los valores medios muestrales de cada una de esas variables.

Tabla 4.3 Análisis casos atípicos

Variables exógenas cuantitativas Fondo Tipo fondo

X1 X2 X3 X6

SAM Sustainable Water Fund Social 1.363,38 1,5 6 -5,93

XMTCH on SMI Convencional 1.682,07 0,4 8 -0,56

M&G Global Growth Convencional 696,13 1,5 40 -13,04

Valor medio muestral 130,12 1,38 9,85 -7,28

Fuente: Elaboración propia

Las medidas a tomar, en el caso de que existan datos atípicos en la muestra, son dos: el mantenimiento de los datos atípicos o su eliminación de la muestra. Los datos atípicos deberían mantenerse siempre que no se demuestre que son aberraciones y no son representativos de las observaciones de la población, ya que de eliminarlos se limitaría la generalidad de la investigación. En este caso no se observa que los datos atípicos presentes en la muestra sean graves, pues es un número muy reducido de casos (el 1,5% de la muestra), o que se deban a aberraciones de medida o errores de cálculo. En consecuencia, se ha optado por mantener todas las observaciones de la muestra para el análisis.

In document A learning by construction approach for higher order cognitive skills improvement (Page 81-83)