2013-14 PERFORMANCE HIGHLIGHTS:
10. Transparency
El objetivo de este experimento fue responder una serie de preguntas de inves- tigación relacionadas con 3 aspectos de usabilidad de la herramienta TeXTracT y su extensión usando el enfoque propuesto, a partir de la opinión de usuarios reales de la herramienta. Específicamente, se analizó la opinión de los usuarios respecto a los siguientes aspectos: facilidad de uso, propensión a errores, y calidad de servicio.
La facilidad de uso se refiere a la capacidad para aprender y operar la API de TeXTracT. Cuestiones como la dificultad para entender la documentación, y con- sideraciones a tomar en cuenta para realizar invocaciones a la API, están relacio- nadas con la facilidad de uso de la herramienta.
Lapropensión a erroresse refiere a la posibilidad de cometer errores al invocar la API, por ejemplo utilizando parámetros incorrectos, y la capacidad para detec- tarlos y arreglarlos con ayuda de los mensajes y códigos de error de la API. Lacalidad de serviciose refiere a la eficiencia de los métodos de la API para mejo- rar las propiedades de calidad de servicio, como tiempo de respuesta y precisión. Las preguntas que se intentan responder en esta evaluación son las siguientes:
PI#1: ¿Se facilita el uso de la herramienta TeXTracT con su nueva interfaz? PI#2: ¿Se reduce la propensión a cometer errores al usar la herramienta con la nueva interfaz respecto a la original?
PI#3: ¿Mejoran las propiedades de calidad de servicio (tiempo de respuesta y precisión) de las configuraciones ejecutadas al usar la nueva interfaz?
Diseño del experimento
El experimento involucró a 20 estudiantes durante el mes de Mayo de 2018 en el contexto de la materia Taller de Desarrollo Web de la Facultad de Ciencias Exactas (Universidad Nacional del Centro de la Provincia de Buenos Aires). La muestra estuvo conformada por estudiantes avanzados de grado de la carrera Ingeniería de Sistemas (18), y estudiantes de postgrado del Doctorado en Ciencias de la Computación (2) de la misma facultad. En cuanto a la distribución de géneros, el 80 % eran varones y el 20 % restante, mujeres. Los rangos de edad fueron de 21 a 29 años. Aunque todos los encuestados reportan haber cursado 4 años o más, en los que al menos 2 tienen prac- ticas de programación, sólo 7 de los 20 individuos (35 %) reportaron tener experiencia laboral en el área y sólo 2 (10 %) haber utilizado clientes HTTP para consumir servi- cios.
El trabajo práctico consistió en armar 4 casos de test para ejecutar pipelines en TeXTracT mediante scripts de línea de comando. Cada caso se armó en base a un re- querimiento funcional y no funcional. El requerimiento funcional se refiere a las ano- taciones que el pipeline debe identificar en el texto de entrada, mientras que el reque- rimiento no funcional puede ser una de las siguientes opciones: minimizar el tiempo de respuesta o maximizar la precisión del servicio. Un ejemplo de caso de test se pre- senta a continuación, donde la primer oración describe el requerimiento funcional y la segunda oración el requerimiento no funcional:
7.4. CASO DE ESTUDIO #3: TEXTRACT “Elaborar un script para ejecutar un pipeline que permita identificar las anotaciones NamedEntities y Chunks, usando el método /execAnnotator. Seleccionar la combinación de anotadores que permita minimizar el tiempo de respuesta. Utilizar una oración a su elección
como texto de entrada.”
El estudio se llevó a cabo en tres pasos. Primero se instruyó a los estudiantes brin- dándoles un tutorial de la herramienta, como así también documentación detallada de su API y ejemplos de uso. Luego se les proporcionó un enunciado con la descrip- ción de los 4 casos de test con sus requerimientos, cada uno para elaborar un script de ejecución diferente. Los scripts se armaron utilizando la aplicación CURL13, un cliente HTTP de línea de comandos para consumir la interfaz Web de TeXTracT. Por último, una vez elaborados y probados estos scripts, se les pidió que completen un cuestio- nario para recabar sus opiniones sobre los escenarios del enunciado, la interfaz de la herramienta, entre otras preguntas. El cuestionario completo se encuentra disponible en el Apéndice A.
La tarea fue llevada a cabo individualmente por los estudiantes. En el cuestionario, debieron valorar los métodos de la interfaz de TeXTracT. Por lo tanto, para no sesgar el experimento a favor del métodoextended/exec, no se les informó a los estudiantes sobre este objetivo de la tarea y se les presentaron los métodos renombrados, es decir, con URLs diferentes a las originales y como parte de una única interfaz, para que no se distinguieran aquellos métodos que forman la versión extendida de la original. En el Cuadro 7.11, se listan las URLs de estos métodos junto a su descripción.
URL del
método URL renombrada Descripción
GET /list - Obtiene la lista de anotadores (algoritmos NLP) registrados en TeXTracT
POST
/execAnnotator Ejecuta un anotador dado POST /exec POST /execPipeli-
neByAnnotators
Ejecuta un pipeline dada la secuencia de anotadores
POST /extended/exec
POST /execPipeli- neByAnnotations
Ejecuta un pipeline dado el conjunto de anotaciones y una preferencia de QoS opcional
Cuadro 7.11:Interfaz de la herramienta TeXTracT usada en la evaluación
Para evitar el sesgo se dividió también a los estudiantes en 2 grupos, A y B, cada uno con enunciados diferentes, donde se les indica el mismo conjunto de requerimien- tos pero ejecutando el servicio con métodos diferentes, unos con el métodoexecPipe- lineByAnnotatorsy otros con el métodoexecPipelineByAnnotations. Los enunciados con los casos de test para cada grupo se presentan en el Apéndice A.
En la elaboración de los scripts, los estudiantes realizaron distintas tareas inheren- tes al consume de servicios Web, tales como: lectura de su documentación, desarrollo de las consultas en un cliente, y prueba de las consultas. Para preparar mejor a los es- tudiantes, al comienzo del cuestionario se agregaron algunas preguntas generales de "calentamiento", en las que se pregunta, por ejemplo, si tienen conocimientos de clien- tes HTTP o del dominio NLP. Luego, se incluyeron varios ítems de consulta diseñados para recopilar las opiniones de los estudiantes sobre aspectos no funcionales de los métodos. Siguiendo el enfoque deLikertpara construir cuestionarios [121], los ítems fueron preguntas a las que los estudiantes responden seleccionando un valor dentro
7.4. CASO DE ESTUDIO #3: TEXTRACT Item Puntuación promedia grupo A (métodoexec) Puntuación promedia grupo B (métodoextended/exec)
¿Qué tan simple le resultó el método para ejecutar
pipelines? de 1 (muy complejo) a 7 (muy simple) 4,7 5,7 ¿Cómo juzgaría la propensión a cometer errores al
utilizar el método? de 1 (alta propensión a errores) a 7 (baja propensión a errores)
4,7 4,8
¿Cómo juzgaría las propiedades de calidad de servicio con el método? de 1 (alta calidad de
servicio) a 7 (alta calidad de servicio)
5,0 5,6
Cuadro 7.12:Resultados basados en 20 estudiantes de grado, 10 sobre la versión original (gru- po A) y 10 sobre la versión extendida (grupo B)
de una escala ordenada de 7 valores que especifica el nivel de acuerdo o desacuerdo con un aspecto descripto en la pregunta. Las preguntas principales, relacionadas con las preguntas de investigación PI#n, fueron las siguientes:
1. ¿Qué tan simple le resultó el método execPipelineByAnnotators o execPipelineB- yAnnotationspara ejecutar pipelines?. Esta pregunta hace referencia a la pregun- ta de investigación PI#1 sobre la facilidad de uso de los métodos.
2. ¿Cómo juzgaría la propensión a cometer errores al utilizar el métodoexecPipe- lineByAnnotators o execPipelineByAnnotations para ejecutar pipelines?. Esta pre- gunta hace referencia a la pregunta de investigación PI#2.
3. ¿Cómo juzgaría las propiedades de calidad de servicio (Ej.: tiempo de respuesta, precisión) con el método execPipelineByAnnotatorso execPipelineByAnnotations?. Esta pregunta hace referencia a la pregunta de investigación PI#3.
Resultados
El Cuadro 7.12 resume los 3 ítems principales de la encuesta (se han omitido las preguntas de calentamiento). Las puntuaciones se presentan separados por grupos: el grupo A con 10 encuestados que llevo a cabo la evaluación del métodoexecoriginal de la herramienta, y el grupo B con 10 encuestados que evaluó el métodoextended/exec. En la Figura 7.18 se visualiza el histograma de las puntuaciones para cada item, donde cada barra contiene la cantidad de estudiantes que eligieron la misma puntuación.
A partir de los resultados se observa que la media de las puntuaciones de los 3 items es superior en el métodoextended/execqueexec, lo que sugiere que la extensión es superadora en los 3 aspectos.
Para corroborar esta observación, se llevó a cabo una prueba estadística por cada item: facilidad de uso, propensión a errores, y calidad de servicio. Se definieron así 3 hipótesis nulas (H0I) formuladas como:
La puntuación del item I ((i) facilidad de uso, (ii) propensión a errores, y (iii) calidad de servicio) del método /exec es mayor o igual que la puntuación del método/extended/exec.
La hipótesis alternativa (H1I) es entonces que la puntuación del itemIdel método exec