4.3 Evaluation
5.1.1 Implementation of Power BI as a complete BI solution
Definición de una prueba
Una prueba o test psicológico es un procedimiento es- tandarizado para obtener muestras del comportamiento y describirlo con puntuaciones o categorías. En la ma- yor parte de los casos, una prueba es percibida como una evaluación, esto es, el examinado sabe que está siendo probado. Esto hace surgir importantes asuntos con respecto a la validez de las pruebas, en particular para la evaluación de la personalidad, actitudes, aspira- ciones y aspectos similares. El problema esencial es el de su conveniencia social, la tendencia natural de las
personas a contestar las preguntas en una forma social- mente deseable, más que ser completamente veraces. Como se explica a continuación, muchas pruebas utili- zan escalas de validez para determinar tales tendencias en la persona sometida a las pruebas.
La particularidad crucial de las pruebas psicológicas incluye las siguientes características:
• El uso de procedimientos estandarizados • El muestreo del comportamiento
• La producción de puntuaciones o categorías • La interpretación por medio de normas o estándares • La predicción del comportamiento no puesto a prueba A continuación se revisan estas características.
Los procedimientos estandarizados son esenciales pa- ra asegurar que los procedimientos de prueba permanez- can uniformes para los diferentes examinadores en las di- versas situaciones. La falta de estandarización en tales elementos como la lectura de las instrucciones o los es- tímulos presentados, pueden cambiar no sólo el carácter de la prueba sino también su nivel de dificultad, situación que reduce la validez de la prueba. Por ejemplo, es mucho más fácil recordar dígitos cuando se presentan en forma oral y se dicen rápidamente. Esta es la razón por la cual los manuales especifican que los dígitos deben expresar- se precisamente en un promedio de uno por segundo.
Una prueba psicológica también está basada en una muestra limitada del comportamiento. Por ejemplo, cuando se prueba el vocabulario, no es realista determi- nar la totalidad del conocimiento que tiene una persona sobre las palabras. El examinador deberá establecer una muestra de 30 o 40 palabras y predecir el promedio general de palabras que conoce la persona a partir de esta pequeña (muy pequeña) muestra. La implicación más importante del concepto prueba-muestra es que los resultados de la prueba invariablemente contienen un grado de error. Por ejemplo, la totalidad del conoci- miento de palabras que una persona tiene puede ser mayor o menor de lo comunicado por una prueba de vocabulario que consta de 30 palabras. Un individuo con una habilidad por debajo del promedio puede obte- ner una puntuación muy alta como resultado de adivi- nar o, por el contrario, una persona con una habilidad superior puede recibir una puntuación baja debido a que la prueba incluía un número desproporcionado de términos coloquiales. Aunque se puede minimizar el error de medición por medio de un diseño cuidadoso de la prueba, nunca podrá eliminarse del todo.
Las pruebas comúnmente proporcionan puntuacio- nes o categorías que son interpretadas con referencia a una muestra estandarizada. La muestra de estandari- zación (también llamada grupo normativo) debe ser re- presentativa de la población a quien se dirige la prue- ba, de forma que sea posible evaluar los resultados de la prueba de cada persona en comparación con el gru- po de referencia. Por ejemplo, el conocer la puntuación 137 de un examinado en las pruebas de razonamiento abstracto ofrece poca información. Pero si sabemos que la puntuación promedio de los estudiantes universitarios en su último año es de 103 y que únicamente el 1% de estos estudiantes tiene puntuaciones de 135 o mayores, tenemos una base para hacer una predicción no basada en la prueba, de que el examinado es un buen candidato para tener éxito en la universidad. Este último punto in- dica que no es el resultado per se lo que es valioso, sino más bien, lo que significa el resultado de la prueba en re- lación a las conductas no basadas en pruebas.
La gran mayoría de las pruebas se realizan con refe- rencia a las normas, lo que significa que sus resultados se interpretan en referencia a la muestra de estandariza- ción. Pero no todas las pruebas siguen este modelo. En particular, las pruebas realizadas con referencia al crite- rio son usadas para determinar dónde está colocado un in- dividuo con respecto a objetivos educativos definidos rí- gidamente. Para estos instrumentos, las comparaciones son con respecto a un estándar objetivo más que con res- pecto al desempeño de otros examinados. Los resultados de una prueba aritmética con referencia al criterio podrían reportar que un estudiante suma números de tres dígitos con 78% de exactitud, mientras que la meta para los sis- temas educativos es de 95%. Debe notarse aquí que el de- sempeño de otros estudiantes es irrelevante, lo que impor- ta es si el estudiante corresponde a un criterio aceptado.
Otra distinción importante está entre las pruebas de grupo y las pruebas individuales. Se puede administrar una prueba de grupo a muchos examinados al mismo tiempo, lo que la hace económica. La desventaja es que la persona que proporciona la prueba no tiene idea de si cada persona que toma la prueba se está esforzando, y si responde en las columnas adecuadas, etc. Una prue- ba individual tiene la ventaja de que la persona que la aplica puede estar cerca del examinado y observar las respuestas correctas e incorrectas y otros detalles clíni- cos de la aplicación de la prueba. Asimismo, una prueba individual permite tener una amplia libertad en cuanto al tipo de estímulos que se pueden presentar (por ejemplo, manipulación de cubos o armado de rompecabezas).
Por último, debemos distinguir entre la aplicación de pruebas o test y la evaluación. La aplicación de prue-
bas o tests representa una tarea muy limitada, la cual
consiste en la administración, la calificación y la inter- pretación de pruebas individuales. En cambio la eva-
luación es un término más amplio que se refiere a todo
el proceso de recopilación de información y su síntesis para hacer predicciones acerca de la persona. La eva- luación se estudió en el capítulo anterior. Aquí, en este capítulo, restringimos el análisis a esa resolución limi- tada que son las pruebas.
Tipos de pruebas
Los psicólogos practicantes tienen acceso literalmente a miles de diferentes pruebas y el número de instrumentos útiles continúa creciendo cada año. Por ejemplo, una re- ciente publicación del Mental Measurements Yearbook contiene información descriptiva y revisiones críticas sobre 418 pruebas nuevas o revisadas (Conoley e Impa- ra, 1995). Este libro se publica cada cierto número de años; cada publicación inspecciona sólo una pequeña parte de los instrumentos disponibles.
Aunque podría parecer que por la diversidad de las pruebas es difícil hacer una clasificación simple, la ma- yoría de las pruebas se ajusta dentro de unas cuantas categorías. Las pruebas más ampliamente usadas son aquellas que evalúan la inteligencia, el funcionamiento neuropsicológico, la personalidad y los intereses o va- lores individuales. Los instrumentos para propósitos especializados también reciben un uso significativo por parte de los psicólogos practicantes. A continuación se revisarán estas categorías.
Pruebas de inteligencia y pruebas relacionadas
Las pruebas de inteligencia muestran generalmente una amplia serie de habilidades para evaluar el nivel general de la habilidad mental del examinado. A menudo estos resultados también proporcionan un perfil de las pun- tuaciones de las subescalas, pero generalmente la puntua- ción general es la que tiene mayor utilidad. Las pruebas de inteligencia también pueden llamarse pruebas de ha- bilidad puesto que avalan la habilidad actual.
En este contexto es importante la distinción entre las pruebas de habilidad, aptitud y logro. En realidad, las co- rrelaciones entre las puntuaciones de estos tres tipos de pruebas pueden ser sustanciales y los reactivos de todas ellas pueden ser altamente similares en estilo y conte- nido. La diferencia entre ellas resulta en su mayor par-
te de la forma en cómo se usan. Las pruebas de habi- lidad o inteligencia se usan para evaluar el nivel inte- lectual general de un individuo para propósitos tales como la identificación del origen de los problemas aca- démicos; una prueba de inteligencia deberá ser un com- ponente esencial en el diagnóstico de un problema de aprendizaje. En contraste, las pruebas de aptitud se usan para pronosticar el éxito futuro en la escuela, la capacitación o la carrera profesional. Estas pruebas cor frecuencia realizan una función de guardián, incluyen- do la admisión a las escuelas, la entrada a la milicia y a los empleos corporativos. Finalmente, las pruebas de logro miden las habilidades actuales con relación a las metas educativas identificadas de un programa escolar o de capacitación. Su función no es valorar únicamen- te el desempeño de los examinados, sino que también evalúa el éxito de los programas educativos.
Pruebas y baterías de pruebas neuropsicológicas
Las pruebas y baterías (o series) de pruebas neuropsico- lógicas se usan para la evaluación de personas de quienes se sospecha o se sabe que sufren de daño cerebral causa- do por lesiones en la cabeza, embolias o trastornos neu- rológicos. Estos procedimientos incluyen un amplio es- pectro de métodos, que van desde pruebas de monitoreo de 10 minutos hasta baterías detalladas de seis horas. Al- go común para todas las formas de evaluación neuropsi- cológica es el uso de instrumentos especializados sen- sibles a los efectos del daño cerebral. Estas pruebas evalúan las fortalezas y debilidades sensoriales, motoras, cognoscitivas y conductuales para propósitos de planea- ción del tratamiento y documentación sobre la mejoría.
Pruebas de personalidad
Las pruebas de personalidad miden los rasgos, las cua- lidades o los comportamientos que determinan la indi- vidualidad de una persona. Estos instrumentos inclu- yen listados, inventarios de reporte personal y métodos proyectivos, tales como las técnicas para completar fra- ses y pruebas de manchas de tinta. Las pruebas de per- sonalidad se usan para determinar el funcionamiento dentro de un margen de comportamiento normal (por ejemplo, clasificar la asertividad de un candidato a ven- tas) y también para evaluar comportamientos anorma- les (por ejemplo, evaluar el grado de depresión de un paciente hospitalizado). En la mayoría de los casos, la evaluación de la personalidad ayuda en la predicción del comportamiento.
Pruebas de intereses y valores
Las pruebas de intereses y valores evalúan la preferencia de un individuo por ciertas actividades o valores. Estas pruebas están basadas en la suposición explícita de que los patrones de intereses y de los valores personales pue- den usarse para predecir la satisfacción dentro de ocupa- ciones específicas. Este tipo de información tiene mu- chos usos, pero una aplicación que destaca es la de ayudar a las personas examinadas a encontrar una ocu- pación adecuada. Por ejemplo, la encuesta Campbell so- bre las habilidades e intereses (CISS, por sus siglas en inglés); Campbell, Hyne y Nilson, 1992) consiste en 200 reactivos sobre diversas actividades que el examinado clasifica en una escala de seis puntos; dichos reactivos van desde "fuerte agrado" hasta "fuerte desagrado". Al- gunas de las actividades son semejantes a las siguientes: Un piloto que pilotea aviones comerciales
Un biólogo que trabaja en un laboratorio de investigación Un detective policiaco que resuelve crímenes
La prueba también incluye 120 reactivos de habilidades que se clasifican en una escala de seis puntos y van des- de "experto" (reconocido ampliamente como excelente en esta área) hasta "ninguno" (no tiene habilidades en esta área). Algunas de las habilidades son semejantes a las siguientes:
Ayudar a una familia a resolver sus conflictos Hacer muebles usando herramientas de carpintería Escribir un artículo para una revista
Las respuestas para los reactivos de habilidades e intere- ses se comparan con aquellas que sirven para emplear personal exitosamente dentro de ocupaciones específicas y determinar su capacidad en varios campos de trabajo.
Pruebas especializadas
Muchas pruebas están diseñadas para aplicaciones alta- mente especializadas o que pretenden usarse dentro de subpoblaciones específicas. Los psicólogos clínicos es- tudiosos pueden entonces reconocer una aplicación apropiada para pruebas como las siguientes, las cuales fueron seleccionadas al azar por parte de Conoley e Im- para(1995):
Batería de pruebas de Arizona para los trastornos de la comunicación durante la demencia
Escala de depresión para los niños Cuestionario multifactorial de liderazgo
Cuestionario sobre el abuso de sustancias (prueba para adultos)
Prueba sobre la capacidad temprana para leer (en el ca- so de personas sordas o parcialmente sordas) Prueba sobre la exploración y atención visual Esta lista es únicamente un ejemplo para ilustrar el in- creíble margen y diversidad de las pruebas o tests dis- ponibles dentro del campo de la psicología clínica. La existencia de éstas y miles de otras pruebas hace surgir un punto importante acerca de la práctica de las prue- bas dentro de la psicología clínica: ¿cómo sabrá el psi- cólogo si una nueva prueba es buena? Como se discu- tirá en la siguiente sección, el examinador psicológico deberá ser experto en los estándares de construcción y evaluación de las pruebas.
Construcción y evaluación de pruebas
Las pruebas son inventadas y elaboradas por psicólo- gos y otros especialistas con base en una o más técni- cas para crear pruebas. Las técnicas más comunes para la construcción de pruebas incluyen los métodos guia- dos por la teoría, los procedimientos empíricos y la aplicación del análisis factorial para los datos prelimi- nares. A continuación se describe cada uno de estos métodos. Por supuesto, algunas pruebas se construyen por medio de la interacción de dos o tres métodos.
Pruebas guiadas por la teoría
El método guiado por la teoría inicia con un listado de las cualidades que el especialista en pruebas busca me- dir. Supongamos que el diseñador de pruebas desea construir una nueva escala de reporte personal para me- dir el potencial de liderazgo. La construcción de la prueba se iniciaría con una revisión de la teoría más importante, que podría revelar que el potencial para el liderazgo está caracterizado por la confianza en uno mismo, la resistencia ante la presión, la inteligencia a un gran nivel, la persuasión, la asertividad y la habili- dad para sentir lo que otros están pensando y sintiendo. Basándose en esta lista derivada de la teoría, el que crea la prueba podría hacer una serie de preguntas cu- ya respuesta fuera verdadero-falso, la cual en una base razonable podría cubrir las siguientes cualidades (Gough y Bradley, 1992):
• Por lo general me siento seguro de mí mismo y con confianza. (V)
• Cuando otros están en desacuerdo conmigo, usual- mente me mantengo tranquilo o cedo ante sus puntos de vista. (F)
• Creo que estoy claramente por encima del promedio en cuanto a la capacidad intelectual. (V)
• Con frecuencia siento que no me doy cuenta de cómo reaccionan los demás ante las cosas. (F)
• Mis amigos probablemente me describen como una persona fuerte, vigorosa. (V)
La V o la F después de cada afirmación muestra la di- rección hacia el potencial de liderazgo. Por obvias ra- zones, este método para el desarrollo de pruebas tam- bién es conocido como el método de escala racional.
Una característica importante de las pruebas guiadas por la teoría es que las escalas deben poseer consisten- cia interna. La consistencia interna se refiere a la cali- dad por la cual los reactivos de una escala individual se correlacionan positivamente entre sí y también con la puntuación total de la escala. De hecho, esta caracterís- tica necesaria puede servir para seleccionar los reacti- vos adecuados y para eliminar los reactivos pobres al inicio del desarrollo de la prueba. Se usa el estadístico conocido como coeficiente alfa para evaluar la consis- tencia interna. El coeficiente alfa se calcula a partir de los datos de pruebas de cientos de examinados y puede variar de casi cero a un perfecto 1.0 (nunca logrado). Entre más cercana sea la puntuación a 1.0, mayor será la consistencia interna de la escala. Para las pruebas construidas por medio del método guiado por la teoría descrito aquí, el coeficiente alfa es por lo general de 0.8 a 0.9 o mayor. Un buen ejemplo de una prueba guiada por la teoría es el Inventario multiaxial y clínico de Mi- llón (tercera edición), discutido más adelante.
Pruebas de criterio empírico
En el método empírico, los reactivos de la prueba son se- leccionados para su inclusión basándose casi enteramen- te en su capacidad para separar cierto criterio de una muestra normativa. Por consiguiente, este método es me- nos dependiente de consideraciones teóricas, juicio racio- nal y de la orientación de expertos. Lo que importa es el desempeño en el mundo real de los reactivos individuales. El método del criterio empírico se ilustra mejor a través del ejemplo. Supóngase que el diseñador de una prueba desea derivar una nueva escala sobre la depre- sión basada en un gran banco preexistente de reactivos sobre personalidad, y que tiene una estructura de res- puesta verdadero-falso. Se podrían usar los siguientes procedimientos (Gregory, 1996):
1. Se selecciona cuidadosamente un grupo homogé- neo de personas que experimenten una depresión
mayor para que contesten los cuestionarios de res- puesta verdadero-falso.
2. Para cada reactivo, se compara la frecuencia del grupo de depresión con la frecuencia de la muestra normativa.
3. Los reactivos que muestren una diferencia grande en su frecuencia entre las muestras de depresión y las muestras normativas serán seleccionados para la escala de depresión, tendentes a la dirección favo- recida por los sujetos deprimidos (verdadero o fal- so, según corresponda).
4. Entonces las puntuaciones en bruto de la escala de depresión serán simplemente el número de reacti- vos contestados en la dirección específica. El ejemplo más prominente de una prueba desarrollada por medio del método del criterio empírico es el MM- PI-2. Para la mayor parte de las escalas clínicas, la afi- liación de los reactivos fue determinada al contrastar las frecuencias de apoyo de los grupos clínicos selec- cionados (por ejemplo, hipocondriasis, depresión, per- sonalidad antisocial, esquizofrenia) contra una muestra normativa de adultos. Una consecuencia inevitable de este método de construcción de escalas es que muchos reactivos de las pruebas sirven en más de una escala. Por ejemplo, un reactivo que discrimina a las personas con depresión de los sujetos normales también podría discriminar a las personas con hipocondria de los suje- tos normales y, en consecuencia, finalizará siendo asig- nado a ambas escalas. El traslape del reactivo entre las escalas es una consecuencia inevitable de esta estrate- gia para desarrollar pruebas.
Pruebas de análisis factorial
El análisis factorial es una técnica estadística que es útil para resumir la interrelación entre un gran número de reactivos de prueba en una forma concisa y exacta como preludio para el desarrollo de la escala. Está más allá del alcance de este libro ahondar en los detalles del análisis factorial, pero se pueden usar unas pocas notas y un ejemplo para ilustrar este método. Por ejemplo, el análisis factorial puede ayudar a un diseñador de prue- bas a descubrir que la recolección de 200 preguntas de