Cuando todos los cuestionarios han sido introducidos en el ordenador es nece- sario realizar un proceso de revisión y depuración de los datos con el objetivo de eva- luar –y si es posible aumentar– la calidad de la información recogida. Se trata de bus- car inconsistencias entre ciertas preguntas, verificar si hay valores que no tienen lugar en determinadas preguntas, analizar las respuestas de las preguntas filtro, cuantificar la no respuesta parcial y decidir que hacer con ella, etc. Pese a la importancia de esta labor, la revisión y depuración de la información recogida cada día recibe menos aten- ción debido a la premura con la que se realiza la recogida y análisis de resultados, la rutina de estas tareas y el abuso de los ordenadores (Villán y Bravo, 1990: 15). Estos factores han generado un descuido en los trabajos de depuración, olvidando el enor- me impacto que tienen en la calidad de los datos recogidos y, en última instancia, en la calidad en la investigación.
Adoptaremos la definición que utiliza Félix Aparicio cuando define depuración de datos como “un conjunto de técnicas que permiten, a partir de la información reco- gida en la encuesta, y a veces a partir de otra información adicional, corregir una parte de los errores de la encuesta” (Aparicio, 1991: 92). El momento temporal en el que se lleva a cabo el proceso de verificación y depuración de la información estará condicio- nado por el procedimiento de recogida de datos, ya que algunos permiten verificar la información cuando el entrevistado responde el cuestionario: en entrevistas persona- les asistidas por ordenador (Computer Assisted Personal Interview-CAPI), entrevistas tele- fónicas asistidas por ordenador (Computer Assisted Telephone Interview-CATI) o encues-
tas autorellenadas asistidas por ordenador (Computer Assisted Self Interviewing-CASI y Computer Assisted Web Interviewing-CAWI) las respuestas de cada entrevistado son gra- badas en el mismo momento en que responden. La creación de filtros y otros instru- mentos permitirá realizar la labor de edición en el momento de la entrevista, posibi- litando inmediatamente la localización de contradicciones lógicas, permitiendo así la repetición de ciertas preguntas al entrevistado. Supongamos una entrevista en la que una mujer señala que tiene 13 años y afirma tener 15 hijos. Cuando esto ocurre en los sistemas CATI, CAPI, CASI y CAWI el software avisa al entrevistador de esta inconsis- tencia, permitiendo rápidamente la repetición de ambas preguntas.
Cuando la investigación se realiza mediante entrevistas personales con cuestio- nario de papel el proceso de revisión y depuración tiene lugar después de la grabación de la información. En numerosas ocasiones esta revisión se lleva a cabo en el momen- to mismo en que son introducidos los datos, realizando la introducción de datos por duplicado y empleando personas distintas (Granero et al, 2001: 1-13). Posteriormente se comparan ambos ficheros a fin de detectar las diferencias existentes; proceso cono- cido como depuración por contraste. Las inconsistencias se solucionarán consultado los cuestionarios originales.
En el momento que se dispone de la información en formato magnético es posible localizar de forma rápida y eficaz los fallos cometidos durante la recogida y grabación de datos. En los siguientes párrafos se exponen algunos de los sistemas de validación más utilizados en el proceso de revisión y depuración de la información recogida11:
1. El primero se fundamenta en la petición de un listado de los valores de todas las variables del cuestionario, realizando tabulaciones para cada variable. La dis- tribución de frecuencias resultante de comparan con las tarjetas del libro de códi- gos con el objetivo de comprobar si alguna de ellas tiene valores ajenos al reco- rrido de la variable, o valores que no aparecen en el libro de códigos. Por ejemplo un valor “7” en la pregunta 24 (sexo) del cuestionario mostrado en el apartado 2.6. El sexo únicamente presenta dos posibilidades; hombre (codifi- cado con el valor 1) y mujer (codificado con el valor 2), de modo que un “7” será un error.
Cuando esto sucede se procede a buscar en el fichero de datos el número de caso donde aparece este valor, para localizar a continuación el cuestionario original. Cuando es un error en el proceso de grabación de la información basta con cam- biarlo por el valor verdadero.
Una situación más problemática surge cuando el cuestionario está mal respon- dido, en cuya situación nada puede hacerse para mejorar la calidad de este
© Editorial UOC 37 Preliminares al análisis de datos
11. Veremos más adelante, en el capítulo VI, cómo proceder con el programa estadístico elegido cuando el investigador se encuentre con esa situación.
registro. Cuando se realiza una correcta labor de edición y los cuestionarios son revisados por los entrevistadores y los coordinadores de campo es muy difícil que se produzca esta situación.
Por otro lado, los modernos programas de grabación de datos permiten deli- mitar los valores máximos y mínimos de las variables, de modo que es prácti- camente imposible introducir datos fuera de rango.
2. Una vez que se ha verificado que todos los valores se ajustan al recorrido de las variables, en la segunda comprobación se comparan el número de respuestas de las preguntas filtro con las preguntas filtradas12.
En el cuestionario del apartado 2.6 esto implicaría que las personas que no tienen vídeo o DVD (pregunta 16, opción 2) no deben responder las pregun- tas 16a, 16b, 16c y 16d referidas al número de películas vistas, día de la sema- na en que visionó la última película, forma de visionado (sólo o acompaña- do, etc.). Eso mismo cabe decir de la pregunta 17a, que únicamente es respondida por los que declaran tener ordenador en su hogar, opción 1 de la pregunta 17.
3. El tercer procedimiento consiste en la elaboración de consistencias lógicas (o relaciones lógicas) que deben ser cumplidas por determinadas variables del cues- tionario. En la localización de estas consistencias hay que diferenciar entre “respuestas inconsistentes” y “respuestas improbables”: las primeras se refieren a situaciones que es imposible que se cumplan, mientras que las segundas muestran respuestas que son posibles, pero muy improbables. La situación referida anteriormente, una mujer de 13 años que declara tener 15 hijos, es un ejemplo de respuesta inconsistente. Si la persona que afirma tener 15 hijos es una mujer de 27 años se trata de una respuesta improbable, puesto que es posi- ble que suceda; aunque es bastante improbable que esta mujer haya tenido su primer embarazo a los 14 años, y que tenga un hijo cada 10 meses.
4. También debe considerarse el nivel de representatividad de las respuestas obte- nidas, analizando la tasa de respuesta de cada pregunta y los niveles de respues- ta de cada sujeto.
Esta fase de revisión y depuración de la información termina con la realización de un primer análisis descriptivo de los datos con el objetivo de conocer los valores atípicos presentes en la matriz de datos; definidos como observaciones que muestran inconsistencias con el resto de la distribución.
© Editorial UOC 38 Análisis de datos de encuesta