RESEARCH METHODOLOGY 3.1 INTRODUCTION
3.5 DATA ANALYSIS TECHNIQUES
En el presente capítulo se describen los diseños experimentales utilizados con el objeto de responder a las preguntas de investigación planteadas en el Capítulo 3. En total hemos realizado 8 estudios empíricos (entre cuasi-experimentos y experimentos controlados) que analizan la efectividad de los sujetos en la actividad de educción de requisitos. Dichos estudios pueden reducirse a dos diseños fundamentales, uno de carácter cuasi-experimental (implementado por primera vez en Q-2007) y otro de carácter experimental (implementado por primera vez en E-2012).
En primer lugar, se describirá el cuasi-experimento base Q-2007 siguiendo las guías para reportar experimentos propuestas por Jedlitschka y Pfahl (2005). Seguidamente se describirán los cuasi- experimentos derivados. Estos cuasi-experimentos son replicaciones literales-nativas-internas y externas con algunas diferencias metodológicas y/o contextuales. Según Gómez, Juristo y Vegas (2014) una replicación literal-nativa-interna es el estudio donde el mismo investigador del estudio base, en el mismo sitio, con el mismo protocolo, con las mismas operacionalizaciones y con el mismo tipo de poblaciones verifica el resultado observado; mientras que la replicación externa es cuando el estudio se realiza en otro sitio distinto al estudio base. Dichas diferencias se describirán siguiendo las guías para reportar replicaciones propuestas por Carver (2010).
Cabe mencionar que la descripción de las replicaciones será mediante diferencias referidas a la manera de llevar a cabo los cuasi-experimentos. No se mencionarán las razones que motivan las diferencias existentes entre las replicaciones, ya que ello implica un conocimiento de los resultados obtenidos. El lector interesado en conocer dichas razones deberá dirigirse al Capítulo 5 donde se indicarán los motivos que originan dichos cambios metodológicos, además de presentar las diferencias contextuales que fueron surgiendo a lo largo de la investigación.
Finalizada la descripción de los cuasi-experimentos, se describirán el experimento base E-2012 y los experimentos derivados, empleando el mismo procedimiento utilizado con el cuasi-experimento base. Estos experimentos son replicaciones internas-nativas-operacionales: internas (porque se realizan en el mismo sitio donde se efectuó el experimento base), nativas (se realiza por los mismos investigadores que participaron en el experimento base) y operacionales (porque varían las operacionalizaciones de causa y/o efecto con el fin de verificar hasta qué limites de las operacionalizaciones de los constructos
Estudio empírico de la influencia de la experiencia y del conocimiento del dominio del analista en la efectividad del proceso de educción de requisitos
de causa y efecto se mantienen en los resultados obtenidos (Gómez et al., 2014)). Las razones que motivan las diferencias entre experimentos se describen en el Capítulo 5.
4.1
Estimación del tamaño muestral necesario
Antes de ejecutar un experimento se recomienda estimar el tamaño muestral necesario para que los test estadísticos posean un poder estadístico suficiente y de esta manera se obtengan resultados más fiables, en particular se eviten errores de tipo II (Kitchenham et al., 2002). La estimación del tamaño muestral se realiza mediante el análisis del poder estadístico. Existen distintas formas de realizar dicho análisis. La más habitual es mediante herramientas especializadas como G*Power (Faul, Erdfelder, Lang, & Buchner, 2007).
El tamaño muestral (o número de sujetos requeridos) varía en función del tipo de diseño experimental (cuasi-experimentos, experimentos controlados: within-subjects o between-subjects). Normalmente, para estimar el tamaño muestral, se aplica un procedimiento similar al que sigue (Dattalo, 2007):
1. Seleccionar el nivel de poder estadístico deseado. El estándar adecuado de poder estadístico para la mayoría de las investigaciones es 0.80 (80%).
2. Seleccionar el nivel de significación α. El nivel alfa normalmente aceptado es de 0.05 (5%.) 3. Estimar el tamaño de efecto poblacional. En Ingeniería del Software se acostumbra utilizar
tamaños de efectos medios (Tuya, Ramos Román & Dolado Cosín, 2007), determinados de acuerdo a las definiciones de Cohen (1988) (por ejemplo, d=0.5, r =0.3; f=0.25, etc.)
4. Identificar la fórmula adecuada (test estadístico) según el tipo de diseño experimental. 5. Calcular el tamaño muestral necesario.
Como se verá a lo largo del capítulo, para la presente investigación, el tamaño muestral requerido en cuasi-experimentos (sección 4.2.5) o experimentos (sección 4.6.4) oscila entre 82 y 128 sujetos. En el contexto del programa de estudios donde el experimento será realizado, el número de alumnos típico por clase está entre 15 y 20, por lo que alcanzar el tamaño muestral estimado en un único experimento es muy difícil. Por este motivo sería necesario replicar el experimento múltiples veces hasta alcanzar un número de sujetos suficiente para obtener resultados razonablemente fiables.
4.2
Cuasi-Experimento Q-2007
A continuación se reportará el proceso experimental seguido en Q-2007, basado en las guías para reportar experimentos en Ingeniería del Software, propuestas por Jedlitschka y Pfahl (2005). Q-2007 es el cuasi-experimento base que inaugura la línea de investigación. Este cuasi-experimento está inspirado principalmente en tres fuentes:
1. Por un lado, el experimento de Agarwal y Tanniru (1990), que estudian la efectividad de los analistas durante la actividad de educción mediada por entrevistas.
2. Por otro lado, el cuasi-experimento de Pitts y Browne (2004), que estudia las “reglas de parada” de los analistas durante la educción mediada por entrevistas.
3. Finalmente, el experimento de Marakas y Elam (1998), que evalúa la efectividad de los analistas en función de la técnica de entrevista empleada: técnica de entrevista semántica (un tipo de entrevista semi-estructurada) frente a la entrevista no estructurada.
Dichos experimentos tenían como objetivo principal estudiar la efectividad de los analistas (operacionalizada de formas distintas) empleando la entrevista como técnica de educción, y coincidían en la imposibilidad de identificar efectos significativos de la experiencia de los analistas sobre la
efectividad durante la actividad de educción. El diseño de Q-2007 se derivó del cuasi-experimento de Pitts y Browne (2004).
4.2.1
Variables y Métricas
En esta sección describiremos las variables independientes y dependientes estudiadas en el cuasi- experimento, así como también la forma en que fueron medidas.
4.2.1.1 Variables Independientes
Las variables independientes son todas aquellas variables que servirán para explicar el comportamiento de los analistas durante el proceso de adquisición y consolidación de los requisitos para el objeto experimental propuesto (dominio sobre el reciclado de pilas, como se verá a continuación). En nuestro caso, las variables independientes hacen referencia a las características del sujeto resumidas en la Tabla 4.1.
Los valores de dichas variables se obtuvieron, por cada sujeto, mediante un cuestionario post- experimental (disponible en el Anexo A.1) aplicado al final del cuasi-experimento con la única excepción del tiempo, el cual se ha determinado a partir de las grabaciones de las sesiones de educción.
Tabla 4.1 – Variables independientes Q-2007
VARIABLE INDEPENDIENTE DESCRIPCIÓN MÉTRICA
Experiencia: en entrevistas, en educción, en requisitos y experiencia profesional.
Experiencia del sujeto en: entrevistas,
requisitos, educción y profesional. Cantidad de años de experiencia en las distintas vertientes.
Conocimiento del Problema (operacionalizado como familiaridad)
Conocimiento que posee el sujeto
sobre el dominio del problema a tratar. Escala de Likert del 1 al 3 (de baja a alta familiaridad) 1. No familiar: Es la primera vez que
me enfrento al problema.
2. Familiar: Me resulta familiar el problema, pero nunca he trabajado en este ámbito.
3. Muy Familiar: Conozco bien el problema pues he trabajado antes en este ámbito.
Titulación académica Titulación Académica: conocimiento teórico del sujeto en el área de desarrollo de software.
Dicotomizada en: 0. No Informático 1. Informático Tiempo de educción Duración de la sesión de educción Medida en minutos:segundos
La principal variable independiente es la experiencia. Sin embargo, resulta inmediato percibir que el concepto de “experiencia” es ambiguo (experiencia en qué: ¿entrevistas, requisitos, etc.?) Considerar únicamente la experiencia profesional parece bastante inespecífico, debido a que los sujetos pudieron haber realizado muy diversas actividades a lo largo de su carrera. Por este motivo, decidimos considerar además de la experiencia profesional, la experiencia específica en requisitos, así como la experiencia en educción y en entrevistas. La experiencia la hemos medido en número de años que el sujeto experimental ha trabajado con requisitos, entrevistas, educción, etc.
Además de la experiencia (en sus distintas vertientes), decidimos introducir en Q-2007 tres variables no exploradas en los estudios de la literatura en los que se basó el cuasi-experimento base. Éstas son:
- La familiaridad: mide el grado de conocimiento que, desde un punto de vista subjetivo, poseen los sujetos acerca del dominio del problema. La familiaridad se ha medido mediante una escala de Likert del 1 al 3 (siendo 1. No familiar; 2 Familiar y 3. Muy familiar).
Estudio empírico de la influencia de la experiencia y del conocimiento del dominio del analista en la efectividad del proceso de educción de requisitos
- La titulación académica: si bien los sujetos poseían limitados niveles de experiencia, tenían sin embargo antecedentes académicos muy diversos (ej. Ingenieros de sistemas o ciencias de la computación, licenciado en economía, tecnólogo en procesamiento de datos, etc.). Esto dio la oportunidad de estudiar el efecto de la titulación en la efectividad de los analistas, categorizados como informáticos y no informáticos.
- El tiempo de educción: corresponde a un tiempo limitado (no más de 30 minutos) establecido para las sesiones de educción.
4.2.1.2 Variables Dependientes
Las variables dependientes seleccionadas deben dar respuesta a las preguntas de investigación planteadas en el Capítulo 3. Como tenemos interés de estudiar la efectividad del analista en el proceso de educción de los requisitos, nuestra variable dependiente hace referencia a la efectividad del proceso de educción.
En este cuasi-experimento hemos evaluado tres variables dependientes. Las variables dependientes seleccionadas se indican en la Tabla 4.2. Dichas variables hacen referencia a la efectividad del sujeto, medida teniendo en cuenta la cantidad de información mencionada, retenida e identificada (o, al menos, hecha explícita en los informes resultantes del proceso de consolidación) por el sujeto durante la educción. Estas variables se obtienen analizando las sesiones de educción que han sido grabadas durante el cuasi-experimento, así como los informes presentados por los sujetos como resultado del proceso de consolidación de los requisitos.
Tabla 4.2 – Variables Dependientes Q-2007
VARIABLE DEPENDIENTE DESCRIPCIÓN ÍTEM EVALUADO MÉTRICA
Efectividad de la sesión de
educción Cantidad de elementos del dominio mencionados durante la sesión de educción.
Entrevistas (sesiones de
educción grabadas) Efectividad
Efectividad del proceso de consolidación de
información
Cantidad de elementos del
dominio reportados. Informes (lista de requisitos e información consolidada) Efectividad
Capacidad de Retención Cantidad de elementos del dominio identificados de la información mencionada en las sesiones de educción.
Sesiones de educción e
informes Efectividad
Actualmente no existe una métrica ampliamente aceptada para medir la efectividad de la educción de requisitos. Sin embargo, es posible encontrar en la literatura y trabajos empíricos existentes diversas alternativas de medida: Agarwal y Tanniru (1990) miden la efectividad en términos del número total de reglas identificadas; Pitts y Browne (2004) según la cantidad de requisitos adquiridos; Burton, Shadbolt, Rugg, y Hedgecock (1988) teniendo en cuenta la cantidad de reglas y cláusulas elicitadas; Browne y Rogich (2001) diferenciándola por categorías: cantidad total de requisitos, procesos e información; Niknafs y Berry (2012) consideran la efectividad según el número de ideas generadas por el equipo de RE.
La efectividad, por tanto, se ha venido operacionalizando como la cantidad de ítems (ya sean conceptos, reglas, procesos, entre otros) obtenidos por el analista durante la educción. En nuestro caso, hemos procedido de modo similar a las investigaciones citadas y medimos la efectividad del proceso de educción de requisitos como el porcentaje total de elementos del dominio del problema identificados por los sujetos experimentales.
El dominio del problema está compuesto por distintos tipos de elementos. La literatura coincide en los elementos esenciales, aunque difiere en los detalles. Por ejemplo, según Yadav, Bravoco, Chatfield, y Rajkumar (1988) los problemas se suelen analizar en términos de objetivos de la organización, procesos
de negocio y tareas que se deben realizar dentro de los procesos para lograr los objetivos. En la misma línea, Davis (1993) menciona que los requisitos, independientemente del lenguaje, de la notación o la técnica utilizada: 1) definen un objeto, una función o un estado, 2) limita o controla las acciones asociadas con un objeto, una función o un estado, o 3) define relaciones entre objetos, funciones y estados. Formulaciones más modernas como el “Frisco Report” (Falkenberg et al., 1996) incorporan elementos que en la literatura precedente estaban implícitos, tales como actores o reglas, además de conservar los ya mencionados conceptos, acciones o estados.
Basándonos en los trabajos anteriores, para medir la efectividad de la educción utilizamos dos tipos de elementos principales: conceptos y procesos. Los objetivos, aunque considerados inicialmente, fueron posteriormente descartados, ya que su número es muy pequeño en relación al número de procesos o conceptos y son siempre identificados por los sujetos, por lo que no proporcionan información relevante a efectos experimentales. Dado que hemos seleccionado dominios sencillos (con pocos actores y ninguna regla de negocio), aspectos más refinados como actores y reglas no parecen adecuados para medir la efectividad.
Los procesos y conceptos de un dominio pueden describirse a varios niveles de detalle (inputs, outputs, atributos, relaciones, etc.). Considerando que el cuasi-experimento consiste en una entrevista inicial, parece bastante difícil que el analista pueda aprehender detalles finos del dominio. Por este motivo, no tendremos en consideración los detalles antes citados (ej. relaciones) y nos restringiremos a los elementos de “grano grueso”, que proporcionan una imagen incompleta, aunque probablemente más justa de la efectividad de los analistas en una primera sesión de educción de un problema sencillo.
Para facilitar la instrumentación, hemos excluido del estudio los requisitos no funcionales, centrándonos únicamente en los requisitos funcionales. Desde la perspectiva de sistemas de información, los requisitos consisten esencialmente en la automatización de procesos pre-existentes en el dominio. Los procesos y requisitos podrían verse como redundantes a efectos de medir la cantidad de información obtenida por los sujetos. No obstante, estas peculiaridades de los sistemas de información no se reproducen en otros tipos de sistemas, como por ejemplo los sistemas de control. En dichos contextos, la caracterización de Gunter, Gunter, Jackson y Zave (2000), que considera los requisitos (en oposición a las especificaciones) como declaraciones operativas en un dominio parece más adecuada. Bajo este punto de vista, los requisitos son parte del dominio del problema, separadamente de los procesos y conceptos, y debería como tal ser incluidos. Para el presente cuasi-experimento, la segunda opción es la más razonable ya que el dominio del problema utilizado en el cuasi-experimento pude calificarse como sistema de información y sus características se asemejan más a sistemas de control.
En resumen, los elementos del dominio del problema que serán considerados en la presente investigación son: conceptos, procesos y requisitos. La medida de efectividad se obtendrá de acuerdo a la fórmula siguiente:
𝑬𝒇𝒆𝒄𝒕𝒊𝒗𝒊𝒅𝒂𝒅=
#𝒄𝒐𝒏𝒄𝒆𝒑𝒕𝒐𝒔
𝒊𝒅𝒆𝒏𝒕𝒊𝒇𝒊𝒄𝒂𝒅𝒐𝒔+ 𝒊𝒅𝒆𝒏𝒕𝒊𝒇𝒊𝒄𝒂𝒅𝒐𝒔# 𝒑𝒓𝒐𝒄𝒆𝒔𝒐𝒔 + 𝒊𝒅𝒆𝒏𝒕𝒊𝒇𝒊𝒄𝒂𝒅𝒐𝒔# 𝒓𝒆𝒒𝒖𝒊𝒔𝒊𝒕𝒐𝒔 𝒏ú𝒎𝒆𝒓𝒐𝒕𝒐𝒕𝒂𝒍𝒅𝒆𝒆𝒍𝒆𝒎𝒆𝒏𝒕𝒐𝒔
Hemos optado por no realizar una media ponderada ya que el hecho de que un determinado elemento aparezca en mayor proporción en un dominio no significa que éste sea intrínsecamente más relevante. Todos los elementos juegan un papel importante en la construcción del futuro sistema software.
4.2.2
Hipótesis
El objetivo principal del cuasi-experimento base consiste en analizarexperimentalmente la influencia que de la experiencia (en sus distintas vertientes: requisitos, entrevistas, educción y profesional) y la familiaridad acerca del dominio del problema que poseen los analistas en laefectividad de la actividad
Estudio empírico de la influencia de la experiencia y del conocimiento del dominio del analista en la efectividad del proceso de educción de requisitos
de educción de requisitos. Para poder alcanzar el objetivo propuesto hemos planteado las siguientes hipótesis de investigación en base a su respectiva hipótesis nula (H0.j) y alternativa (Hj.k).
RQ1: ¿Influye la experiencia del analista en la efectividad del proceso de educción de los requisitos?
• H1.a0: No hay ninguna relación entre la experiencia (en requisitos |entrevistas| educción
|profesional) y la efectividad (educción| consolidación| retención) en el proceso de educción.
• H1.a1: Existe una relación entre la experiencia y la efectividad del analista.
RQ2: ¿Influye el conocimiento11 que el analista posee acerca del dominio en la efectividad del proceso
de educción de requisitos?
• H2.a0: No hay relación entre la familiaridad que posee el sujeto y su efectividad (educción|
consolidación| retención) en el proceso de educción.
• H2.a1: Existe una relación entre la familiaridad y la efectividad del sujeto.
Como nuestro estudio es de carácter exploratorio y en la literatura se observan tendencias distintas sobre el efecto de la experiencia y del conocimiento, no podemos anticipar la dirección de los efectos potenciales de dichas variables. Por tanto, la hipótesis alternativa es 2-colas (2-tailed).
Por otro lado, el carácter profesional del máster donde se realizó el cuasi-experimento, propició que los estudiantes poseyeran distintos perfiles y titulaciones, lo cual podría ejercer algún tipo de influencia en sus efectividades. Sería esperable que los estudiantes con formación en informática sean más efectivos que los no informáticos. Por tanto, este hecho llevó a los investigadores a plantearse la siguiente pregunta de investigación:
RQ3. ¿Influye la titulación académica en la efectividad (educción| consolidación| retención) del proceso de educción?
• H30: No hay relación entre la titulación académica que posee el sujeto y su efectividad
(educción| consolidación| retención) en el proceso de educción.
• H31: Existe una relación entre la titulación académica y la efectividad del sujeto.
4.2.3
Selección de Sujetos
Hemos usado muestreo por conveniencia para seleccionar los sujetos experimentales. Los sujetos que participaron en el experimento fueron estudiantes del Máster en Ingeniería del Software de la Escuela Técnica Superior de Ingenieros Informáticos de la Universidad Politécnica de Madrid (anteriormente Facultad de Informática), matriculados en la asignatura de Ingeniería de Requisitos. La asignatura de Ingeniería de Requisitos fue seleccionada para reclutar a los sujetos, dado que Q-2007, así como sus replicaciones se puede ejecutar naturalmente como parte de la asignatura.
4.2.4
Asignación de los Sujetos a Tratamientos
El estudio empírico realizado en Q-2007 es un cuasi-experimento. Los cuasi-experimentos se realizan cuando los sujetos no pueden asignarse aleatoriamente a una condición experimental o, alternativamente, un tratamiento no puede ser asignado a un grupo. Este es nuestro caso, ya que las características de los sujetos experimentales no pueden aleatorizarse ni bloquearse al ser intrínsecas del sujeto experimental.
Por tanto, en el presente estudio no se produce una asignación a sujetos propiamente dicha, debido a que todos los sujetos realizan el mismo tratamiento. Es decir, todos los sujetos que participan del cuasi-experimento realizan la actividad de educción de requisitos sobre el mismo problema y con el mismo entrevistado (ver sección 4.2.7).
11 Nótese que el conocimiento en este cuasi-experimento está operacionalizado como la familiaridad.
4.2.5
Estimación del Tamaño Muestral
Para tener una idea sobre el tamaño muestral mínimo deseable para la ejecución del cuasi-experimento, hemos utilizado la herramienta G*Power 3.1 con los valores proporcionados por defecto, tal y como se indica en la Figura 4.1. Siguiendo los pasos recomendados en la sección 4.1, para la determinación del tamaño muestral hemos establecido el poder estadístico al 80%, con un nivel de significación del 5% en la detección de efectos medios (Cohen´s r=0.3). El test estadístico seleccionado corresponde a “Correlation: Bivariate normal model”.
Figura 4.1 – Estimación del tamaño muestral para cuasi-experimentos
Tal y como se puede apreciar en la figura anterior, el tamaño mínimo estimado para la ejecución de un cuasi-experimento es de 84 sujetos. Sabemos de ante mano que en Q-2007 no alcanzaremos la cantidad esperada, por ello la necesidad replicaciones hasta obtener el tamaño estimado.
4.2.6
Objeto Experimental
El problema planteado consistió en un sistema de control de máquinas de reciclado de pilas (al que hemos asignado el código PD1). Lo inusual del problema seleccionado se debe a que una de las amenazas que deseamos evitar es el impacto del conocimiento previo sobre el dominio del problema en la efectividad del analista. Por ello, el problema debía ser poco habitual de modo que un buen número de sujetos tuvieran poca o ninguna experiencia en el mismo.
El dominio del problema tiene relación con una planta de reciclado de pilas, donde se utilizan una