Problem Framing and Planning Methods - Dimension 2: Project Phase

CHAPTER 5. PASSIVE, CONSULTATIVE, AND CO-CONSTRUCTIVE

5.2 Dimension 2: Project Phase

5.2.1 Problem Framing and Planning Methods

En esta sección se describe la base de datos para el corpus de unidades fonéticas para la generación de la voz sintética. Como se determinó en un comienzo, la población objeto de estudio la componen niños con edades comprendidas entre los 5 y 15 años con corrección de LPH de la región central del pa´ıs; menores de ambos géneros y que se encuentren en tratamiento del habla y/o rehabilitación de la voz en el Hospital

Infantil Universitariode la cruz roja Rafael Henao Toro.

4.2.1. Adquisición y adecuación de se ñales

El primer paso en la recolección de señales, es la conversión electro-acústica, o transformación mediante el micrófono de los desplazamientos del aire debidos a cambios de presión en la generación de la voz, a energ´ıa eléctrica que es de tipo análoga, o sea:

Γ{x(t)} = y(t) ∼ kx(t)

Donde x(t) es la se˜nal original de voz y k la constante de linealidad de conversi´on.

Sin embargo, al realizar la adquisición de señales de voz en la práctica, hay distorsiones de amplitud y fase, que conllevan a la dependencia no lineal entre la entrada y salida del conversor, haciendo que este sea una fuente potencial de errores en el registro de las señales.

Por lo anterior, es muy importante elección del micrófono para el registro de voz. Las caracter´ısticas técnicas son [9]:

Respuesta de frecuencia. La curva de respuesta en frecuencia debe tener el menor rizado o clase de variaci´on, debe ser constante y con el mayor ancho de banda posible.

Direccionalidad del patrón. Entendido como la forma de concentración de la energ´ıa recibida por el micrófono, con respecto al ángulo cero desde la fuente de emisión sonora. Los patrones de recepción pueden ser omnidireccionales (patrón circular) o direccionales (cardioide, el´ıpticos, etc.).

4.2.2. Grabaci´on

Para el corpus del sintetizador se grabaron unidades fonéticas variables, correspondientes a una voz de género femenino y que pertenece al periodo de estabilidad vocal (entre 19 y 54 años) con 23 años de edad.

Las caracter´ısticas de los archivos de audio generados para el corpus son las siguientes : Formato de registro tipo *.wav.

Frecuencia de muestreo igual a 44100 Hz. Bits por muestra igual a 16.

Audio monof´onico: Canales de grabaci´on - 1.

La construcción del corpus es lo suficientemente rico en expresiones y contenidos fonéticos, es decir, con diferentes construcciones gramaticales (diptongos, triptongos, palabras con acento, diéresis, etc.). De igual

forma, involucra diferentes expresiones y palabras utilizadas en el contexto de los tratamientos fonoaudiol´ogi- cos que deber´a poder manejar el sistema.

El corpus de voz esta constituido por 927 frases fon´eticamente balanceadas (4095 palabras diferentes), em- pleadas en el contexto de las terapias de rehabilitaci´on del habla.

Las palabras son le´ıdas de forma que tengan el mismo tono, con una acentuaci´on y pronunciaci´on correcta, dentro de la prosodia caracter´ıstica de la region central del pa´ıs.

Las palabras grabadas son almacenadas en el directorio wav/ el que a su vez se encuentra bajo la estructura de directorio que contiene el proyecto de voz que se desarrolla. Para mantener una pronunciación consistente, se hace que el locutor escuche las palabras previamente sintetizadas en el momento de realizar la grabación. Esto ayuda al locutor a mantener una entonación plana además de reducir errores de pronunciación.

4.2.3. Par´ametros t´ecnicos del equipo

El equipo para la adquisición de las señales que hacen parte del corpus del sintetizador, as´ı como el registro electrónico de señales para el clasificador, posee estas caracter´ısticas:

Micrófono Shure SM58, dinámico unidireccional (cardiode) diseñado para vocalistas profesionales. Filtro esférico incorporado, que reduce los ruidos causados por el viento y el aliento.

Patr´on direccional.

Dispersion polar de cardiode, que a´ısla la fuente sonora principal a la vez que reduce los ruidos de fondo.

Sistema close-talk, a fin de orientar al m´aximo la emisi´on del hablante y reducir las emisiones de ruido de fondo.

Procedimiento de grabaci´on bajo condiciones de bajo nivel de ruido ambiental.

Ubicaci´on a una distancia promedio de 10 a 20cm del locutor como se muestra en la figura4.2

4.2.4. Preproceso

Para atenuar las perturbaciones de los segmentos de voz grabados, debidos al ruido intr´ınseco del hardware utilizado en el momento de la recolección de señales de voz como se ve en la figura 4.3 con la palabra / salir /, se utiliza un filtro pasa bajas con atenuación de 30 dB que se encuentra implementado en la herramienta WavePad, usada para grabar y editar los archivos de voz. La señal filtrada se muestra en la figura 4.4.

Figura 4.2:Adquisici´on las se˜nales de voz

Figura 4.3:Se˜nal grabada sin preproceso

Figura 4.4:Se˜nal filtrada

Durante el proceso de grabación, en la mayor´ıa de los casos, se generan espacios sin voz, debido a que se empieza a hablar después de oprimir el botón de inicio de grabación, as´ı como al terminar de hablar y detener la grabación (figura 4.5; a este espacio sin voz, lo llamaremos vac´ıo, por no contener información de sonido importante. Una vez que han sido grabados los segmentos de voz, es necesario eliminar el vac´ıo que se tiene al inicio y fin de la s´ılaba, como se observa en la figura 4.6

Figura 4.5:Se˜nal grabada sin recorte de espacios

Figura 4.6:Se˜nal filtrada y recortada

Este recorte, nuevamente se lleva acabo, utilizando la herramienta de edici´on de sonidos WavePad. Una vez que se ha llevado a cabo este recorte, la se˜nal de voz concatenada con otra unidad (deseas-salir)queda como se observa en la figura 4.7.

Figura 4.7:Se˜nal con preproceso

Si no se llevara a cabo este recorte de vac´ıo, ocasionar´ıa demasiado espacio entre una s´ılaba y otra, pues el vac´ıo al final de una s´ılaba se sumar´ıa con el vac´ıo al inicio de la otra s´ılaba, al momento de concatenar estas s´ılabas para su reproducci´on final, como se ilustra en la figura 4.8.

Con este recorte del vac´ıo se mejora la naturalidad de la pronunciación de voz, as´ı como la reducción signi- ficativa del espacio en el disco utilizado para cada archivo. En las pruebas se logró una reducción de espacio del orden del 30

Figura 4.8:Segmentos concatenados sin preproceso

In document Methods to facilitate community participation in humanitarian engineering projects: Laying the foundation for a learning platform (Page 118-122)