When and How to Use Transfer Learning

General Discussion

7.4.3 When and How to Use Transfer Learning

Existe un método, llamado MUSHRA (“MUlti Stimulus test with Hidden Reference and Anchor”), que permite evaluar la calidad subjetiva de audio, proporcionando resultados confiables. Como lo especifica la recomendación (ITU-R-BS.1534-3, 2015): método para la evaluación subjetiva del nivel de calidad intermedia de los sistemas de audio.

El método MUSHRA trata de dar una medida fiable y repetible de los sistemas cuya calidad de audio sea intermedia. En este método, se utiliza una señal de referencia de gran calidad y se prevé que los sistemas sometidos a ensayo introduzcan degradaciones significativas. En este caso, se utilizó la señal de audio cardio-pulmonar original y sus respectivas variaciones fueron las arrojadas al pasarla por los códecs seleccionados.

La prueba consiste en presentarle a un sujeto una señal de audio (original) y sus versiones degradadas (en este caso, codificadas). Al escucharlas el sujeto asigna una calificación para determinar, de acuerdo a su criterio, cuánto se parecen las versiones degradadas a la original. Como control y para calificar la veracidad de la evaluación, entre las versiones degradas se encuentra oculta la versión original.

MUSHRA está diseñado de tal forma que, en una escala del 0 al 100, en condiciones ideales la calificación del oyente oscilará entre 20 y 80. Si la calificación de la mayoría de las condiciones de prueba oscila entre 80 y 100, es posible que los resultados de la prueba no sean válidos. A continuación se describen las recomendaciones de implementación:

5.5.1.1. Criterios para la selección de los sujetos

Se recomienda que su empleo se realice por oyentes experimentados, para garantizar la validez de los datos de prueba obtenidos. Dichos participantes ofrecerán resultados más fiables y de forma más rápida que los no experimentados. Un sujeto experimentado se escoge por su capacidad para realizar una prueba de escucha. Esta capacidad puede cualificarse y cuantificarse en términos de la fiabilidad y discriminación del sujeto en la prueba. A partir de una serie de evaluaciones, como se define a continuación:

Discriminación: medida de la capacidad para percibir diferencias entre los elementos de prueba. Fiabilidad: medida del acercamiento de percepciones idénticas del mismo elemento de prueba. Sólo los sujetos consideradossujetos experimentados para cualquiera de las pruebas deberán incluirse en el análisis final de los datos.

Preselección de los sujetos

El panel de oyentes debe estar compuesto de participantes que entiendan y hayan sido adecuadamente adiestradas en el método descrito de evaluación subjetiva de la calidad. Debe utilizarse un procedimiento de adiestramiento como instrumento para la preselección. Sólo los sujetos considerados sujetos experimentados en el experimento piloto o en el experimento principal deberán incluirse en el análisis final de los datos. Los sujetos que se preseleccionaron para la prueba MUSHRA fueron tanto estudiantes como trabajadores del CICESE. Jóvenes de entre 20 y 30 años. También se contó con la preselección de dos médicos, el médico general del CICESE y una médico externo, ambos menores de 45 años.

Postselección de los sujetos

Excluir a los sujetos que asignan una calificación muy alta a una señal notablemente degradada, y a los que califican la referencia oculta de acuerdo con la siguiente escala:

se debe excluir al sujeto de las respuestas agregadas si califica la referencia oculta para más del 15 % de los elementos por debajo de una calificación de 90;

se debe excluir al sujeto de las respuestas agregadas si califica el patrón de gama media para más del 15 % de los elementos de prueba por encima de una calificación de 90. Si más del 25 % de los sujetos otorga al patrón de media gama una calificación superior a 90, es posible que el elemento no haya sido lo suficientemente degradado por el procesamiento patrón. En tal caso, no se excluirá a los sujetos en función de la calificación de ese elemento.

De los sujetos preseleccionados unicamente se descartó la prueba realizada por el médico general del CICESE, ya que no calificó la referencia oculta en más del 15 % de los elementos con una calificación mayor o igual a 90. Uno de tantos factores para no lograr lo anterior pudo ser que no se contó con un entorno adecuado para controlar el nivel de ruido externo a la prueba y también que el médico no contaba con el tiempo suficiente para realizar la prueba por lo que hizo la prueba de manera apresurada.

5.5.1.2. Tamaño del grupo de participantes

Cuando las condiciones de una prueba de audición se controlan estrictamente en los aspectos técnicos y de comportamiento, la norma indica que los datos procedentes de no más de 20 sujetos suelen ser suficientes para extraer conclusiones adecuadas de la prueba. Si pueden efectuarse análisis a medida que avanza el ensayo, no es necesario procesar las valoraciones de nuevos sujetos, cuando puede alcanzarse un nivel adecuado de significación estadística para extraer conclusiones adecuadas de la prueba. Si por cualquier motivo no puede lograrse un control experimental estricto, puede ser necesario un número mayor de sujetos para alcanzar la resolución exigida. Para esta tesis se contó en total con 17 participantes no médicos, estudiantes y trabajadores del CICESE y con un médico externo al cicese.

5.5.1.3. Descripción de las señales de prueba

Se recomienda que la longitud máxima de las secuencias sea de aproximadamente 10 s y que preferen- temente, no supere los 12 s a fin de evitar la fatiga de los oyentes, aumentar la firmeza y estabilidad de las respuestas de los oyentes y reducir la duración total de la prueba de audición.

5.5.1.4. Fase de adiestramiento

Es obligatorio enseñar a los sujetos en sesiones especiales de adiestramiento con antelación a las pruebas. Se ha visto que este adiestramiento es importante para obtener resultados fiables. En el adiestramiento se debe exponer como mínimo al sujeto a toda la gama y naturaleza de las degradaciones, así como a todas las señales de prueba que recibirá durante el ensayo.

5.5.1.5. Presentación de los estímulos

En el método de prueba MUSHRA el sujeto puede pasar a voluntad de la señal de referencia a cualesquiera de los sistemas en prueba, utilizando por lo general un sistema de respuesta controlado por computador, aunque puedan utilizarse otros mecanismos. Como el sujeto puede comparar directamente las señales degradadas, este método ofrece la ventaja de una plena comparación por pares en la que el sujeto puede detectar más fácilmente las diferencias entre las señales degradadas y valorarlas en consecuencia. Se recomienda no incluir en cada tentativa más de 12 señales (por ejemplo, 9 sistemas de prueba, 1 patrón bajo oculto, 1 patrón medio oculto y 1 referencia oculta). En los raros casos en que haya de compararse un gran número de señales, el experimento deberá diseñarse por bloques.

5.5.1.6. Proceso de valoración

Se pide a los sujetos que califiquen a los estímulos según la escala de calidad continua o CQS (por sus siglas en inglés). La CQS consiste en unas escalas gráficas idénticas (normalmente de 10 cm de longitud o más) que se dividen en 5 intervalos iguales con los siguientes adjetivos:

malo, de 0 a 20;

pobre, de mayor que 20 a 40; regular, de mayor que 40 a 60; bueno, de mayor que 60 a 80; excelente, de mayor que 80 a 100.

El participante registra su evaluación de la calidad en un formulario adecuado, por ejemplo, utilizando los cursores de una visualización electrónica o utilizando un lápiz y una escala en papel.

In document Transfer Learning for Medical Image Segmentation (Page 112-128)