MATERIAL AND METHODS Experimental Procedures

calcium fumarate, an extruded linseed product, or medium-chain fatty acids does not affect

MATERIAL AND METHODS Experimental Procedures

Confiabilidad de las pruebas

Confiabilidad se refiere a los atributos de consistencia con los que una prueba se mide. Cuando todos los otros factores se mantienen constantes, una prueba confiable es aquella que produce resultados idénticos (o al menos altamente similares) en un examinado, de una ocasión a la siguiente. Los expertos en psicometría han inven- tado varias formas para evaluar la confiabilidad de las pruebas, mismas que revisaremos aquí.

El método más directo para medir la confiabilidad es administrar una prueba dos veces al mismo grupo de sujetos y luego calcular el coeficiente de correlación entre los dos grupos de puntuaciones. Esto es conocido como confiabilidad test-retest, y los resultados pueden variar desde un sombrío 0.0 (con ninguna confiabilidad) a un teóricamente posible 1.0 (confiabilidad perfecta). Cuan- do se usan los resultados de una prueba para tomar deci- siones acerca de los individuos, un lineamiento aceptado es que su confiabilidad deberá ser de 0.90 o mayor. Guil- ford y Fruchter (1978) ofrecen el siguiente consejo:

Existe cierto consenso en que para ser muy exacto en una medición de las diferencias de un individuo en algunas características, la confiabilidad deberá estar por en- cima de 0.90. Sin embargo, lo cierto es que muchas pruebas estandarizadas con confiabilidad tan baja como 0.70 han probado ser muy útiles. Y pruebas con confiabilida- des más bajas pueden ser útiles en investigación (p. 87). Se pueden usar muchos otros métodos para evaluar la confiabilidad de una prueba o escala. Un método popular es administrar el instrumento una sola vez a un grupo grande de sujetos y luego correlacionar las puntuaciones de una mitad de la escala (por ejemplo, los reactivos pares) con las puntuaciones de la otra mitad

de la escala (por ejemplo, los reactivos nones). Esto es conocido como el método por mitades. Dado que la co- rrelación inicial es derivada únicamente sobre una mitad del número total de reactivos, se necesita un ajuste estadístico menor (la fórmula Spearman-Brown) para estimar la confiabilidad de toda la escala. Un método re- lacionado que se mencionó antes es el método de la consistencia interna, en el que se calcula un índice es- pecializado de confiabilidad del coeficiente alfa. El método por mitades y el coeficiente alfa están relacionados; de hecho, se puede mostrar que el coeficiente alfa es el promedio de todos los coeficientes de confiabilidad posibles del método por mitades.

Para las pruebas en las que se necesita el juicio del examinador para obtener las puntuaciones, también es necesario el cálculo de la confiabilidad entre estimadores. Este es un procedimiento directo en el que una gran muestra de pruebas es calificada independiente- mente por dos o más examinadores y luego se correlacionan las puntuaciones de los pares de examinadores. La confiabilidad entre estimadores complementa otros estimados de confiabilidad, pero no los reemplaza.

Se necesitan observar algunas precauciones al evaluar la confiabilidad de las pruebas psicológicas. La confiabilidad test-retest será falsamente baja si está basada en una muestra de sujetos para los que hay una restricción del margen sobre las características a medir. Así, sería insensato evaluar la confiabilidad test-retest de una prueba de inteligencia basándose en los resultados de estudiantes en un programa para niños superdo- tados y talentosos. Otra situación que llama la atención a ser cautos es la evaluación de las pruebas de veloci- dad, ya que en ellas la puntuación está basada principal- mente en el número de reactivos completados. En este caso, el método par-impar para la confiabilidad del mé- todo por mitades producirá un resultado bastante falso para la confiabilidad de la prueba.

Evaluación de la validez de la prueba

La validez de una prueba se refiere a qué tanto mide és- ta lo que se desea medir. Aunque hasta cierto punto la validez puede evaluarse por medio de criterios estadís- ticos, la validez de una prueba recae finalmente sobre la acumulación de los hallazgos de las investigaciones. Como lo expresó Anastasi (1986), "la validez es una cosa viviente; no se muere ni se embalsama cuando la prueba es publicada". Por consiguiente, la validación de una prueba es un proceso en desarrollo que inicia

con la construcción de la prueba y continúa a través de la vida de la misma.

Tradicionahnente, los diferentes modos para acu- mular la evidencia de la validez han sido catalogados en las "tres V":

• Validez de contenido

• Validez relacionada con el criterio • Validez de constructo

Otro concepto que requiere una breve mención es la validez nominal, que no es en realidad una forma téc- nica de validez pero es, no obstante, un asunto esencial de las relaciones públicas. Una prueba posee validez nominal si les parece válida a los usuarios (es decir, a los que utilizan la prueba para conseguir datos sobre los resultados), a quienes la aplican, y especialmente para los que la toman o la responden. La validez nominal es importante debido a que ayuda a asegurar que una prueba sea aceptada y usada.

La validez de contenido se refiere al grado en que las preguntas, reactivos o tareas que hay en una prueba son representativos de la clase de comportamientos que el diseño de dicha prueba permite muestrear. Un méto- do para la validez de contenido es la construcción anti- cipada de una tabla de especificación de dominio que identifique claramente las subáreas de contenido que el diseñador de la prueba espera medir. Por ejemplo, en el diseño de una prueba de logro sobre la historia anti- gua estadounidense, el diseñador podría especificar cuatro dominios: el periodo colonial, la revolución estadounidense, la expansión occidental y la guerra civil. La validez de contenido podría asegurarse diseñando preguntas que toquen estos cuatro dominios. Dicha validez es sobre todo un llamado al juicio del diseñador de la prueba y por lo regular no se reduce a un solo nú- mero. Frecuentemente se establece un panel de expertos para confirmar que los reactivos en efecto pertenez- can a los dominios predeterminados.

La validez relacionada con el criterio es demostra- da cuando una prueba es efectiva para estimar el de- sempeño de un sujeto sobre la medición de un resultado relevante. En un método para la validez relacionada con el criterio conocido como validez concurrente, las puntuaciones de las pruebas son comparadas con un criterio relevante externo. Por ejemplo, los resultados de una prueba de diagnóstico psiquiátrico resuelta con lápiz y papel se puede comparar con el diagnóstico real recibido de los psicólogos. Por supuesto, estos profe- sionales no deberán tener acceso a los resultados de la prueba; de otro modo se comete un error conocido co-

mo "contaminación del criterio". Otro ejemplo de la validez concurrente es correlacionar los resultados de una prueba nueva con una prueba existente administra- da al mismo tiempo. En este caso, la relación deberá ser sustancial, en el orden de r = 0.7 o más alto, para establecer la validez concurrente del nuevo instrumento. Otro método para la validez relacionada con el cri- terio es la validez predictiva. En este caso se obtienen los criterios de medición en el futuro; frecuentemente meses o años después de que fueron obtenidas las puntuaciones de las pruebas originales. Muchas pruebas de admisión a la universidad siguen este modelo, en el que las puntuaciones obtenidas de las pruebas en la prepa- ratoria se correlacionan tiempo después con el punto promedio del grado universitario con el propósito de validar los instrumentos. Los resultados confirmatorios para la validez predictiva con frecuencia son más bajos que para la validez concurrente, en un rango de 0.3 a 0.7. El último tipo de validez es la validez de constructo. Un constructo es una cualidad o rasgo teórico, intangi- ble, en el que las personas difieren (Messick, 1989). La mayoría de las pruebas psicológicas están diseñadas para medir constructos, los ejemplos incluyen depresión, inteligencia, capacidad de liderazgo y hostilidad sobrecontro- lada. La validez de constructo se refiere a si los resultados de las pruebas de varias fuentes obedecen a un patrón teóricamente sensible. No hay un método único para evaluar la validez de constructo. En lugar de eso, la evidencia de este tipo de validez siempre descansa en un programa de investigación. Aquí están algunos ejemplos de los tipos de hallazgos que podrían indicar que una nueva escala posee validez de constructo (Gregory, 1996): • La escala parece ser homogénea y, por consiguiente,

mide un constructo único.

• Los cambios en el desarrollo a través del tiempo o a través de sujetos de diferentes edades son consistentes con la teoría del constructo que será medido. • Las diferencias entre los grupos bien definidos sobre

la prueba son consistentes con la teoría.

• Los efectos de la intervención producen cambios en las puntuaciones de la prueba que son consistentes con la teoría.

• La escala se correlaciona más fuertemente con los instrumentos relacionados que con los instrumentos no relacionados.

• El análisis factorial de las puntuaciones de la prueba produce resultados que son sensibles a la luz de la teoría para la que la escala fue producida.

Usted notará que alguno de los criterios presentados aquí también pueden ser discutidos bajo la validez de contenido y la validez relacionada con el criterio. Esto se de- be a que la validez de constructo abarca estos otros tipos de validez. Dicha validez es el concepto unificado por el que se muestra que los resultados de las pruebas son sig- nificativos y, por tanto, es considerado el más importante de los métodos para la validación de las pruebas.

In document Dietary strategies to reduce methane emissions from ruminants (Page 48-65)