CHAPTER 5. PASSIVE, CONSULTATIVE, AND CO-CONSTRUCTIVE
5.2 Dimension 2: Project Phase
5.2.1 Problem Framing and Planning Methods
En esta secci´on se describe la base de datos para el corpus de unidades fon´eticas para la generaci´on de la voz sint´etica. Como se determin´o en un comienzo, la poblaci´on objeto de estudio la componen ni˜nos con edades comprendidas entre los 5 y 15 a˜nos con correcci´on de LPH de la regi´on central del pa´ıs; menores de ambos g´eneros y que se encuentren en tratamiento del habla y/o rehabilitaci´on de la voz en el Hospital
Infantil Universitariode la cruz roja Rafael Henao Toro.
4.2.1.
Adquisici´on y adecuaci´on de se ˜nales
El primer paso en la recolecci´on de se˜nales, es la conversi´on electro-ac´ustica, o transformaci´on mediante el micr´ofono de los desplazamientos del aire debidos a cambios de presi´on en la generaci´on de la voz, a energ´ıa el´ectrica que es de tipo an´aloga, o sea:
Γ{x(t)} = y(t) ∼ kx(t)
Donde x(t) es la se˜nal original de voz y k la constante de linealidad de conversi´on.
Sin embargo, al realizar la adquisici´on de se˜nales de voz en la pr´actica, hay distorsiones de amplitud y fase, que conllevan a la dependencia no lineal entre la entrada y salida del conversor, haciendo que este sea una fuente potencial de errores en el registro de las se˜nales.
Por lo anterior, es muy importante elecci´on del micr´ofono para el registro de voz. Las caracter´ısticas t´ecnicas son [9]:
Respuesta de frecuencia. La curva de respuesta en frecuencia debe tener el menor rizado o clase de variaci´on, debe ser constante y con el mayor ancho de banda posible.
Direccionalidad del patr´on. Entendido como la forma de concentraci´on de la energ´ıa recibida por el micr´ofono, con respecto al ´angulo cero desde la fuente de emisi´on sonora. Los patrones de recepci´on pueden ser omnidireccionales (patr´on circular) o direccionales (cardioide, el´ıpticos, etc.).
4.2.2.
Grabaci´on
Para el corpus del sintetizador se grabaron unidades fon´eticas variables, correspondientes a una voz de g´enero femenino y que pertenece al periodo de estabilidad vocal (entre 19 y 54 a˜nos) con 23 a˜nos de edad.
Las caracter´ısticas de los archivos de audio generados para el corpus son las siguientes : Formato de registro tipo *.wav.
Frecuencia de muestreo igual a 44100 Hz. Bits por muestra igual a 16.
Audio monof´onico: Canales de grabaci´on - 1.
La construcci´on del corpus es lo suficientemente rico en expresiones y contenidos fon´eticos, es decir, con diferentes construcciones gramaticales (diptongos, triptongos, palabras con acento, di´eresis, etc.). De igual
forma, involucra diferentes expresiones y palabras utilizadas en el contexto de los tratamientos fonoaudiol´ogi- cos que deber´a poder manejar el sistema.
El corpus de voz esta constituido por 927 frases fon´eticamente balanceadas (4095 palabras diferentes), em- pleadas en el contexto de las terapias de rehabilitaci´on del habla.
Las palabras son le´ıdas de forma que tengan el mismo tono, con una acentuaci´on y pronunciaci´on correcta, dentro de la prosodia caracter´ıstica de la region central del pa´ıs.
Las palabras grabadas son almacenadas en el directorio wav/ el que a su vez se encuentra bajo la estructura de directorio que contiene el proyecto de voz que se desarrolla. Para mantener una pronunciaci´on consistente, se hace que el locutor escuche las palabras previamente sintetizadas en el momento de realizar la grabaci´on. Esto ayuda al locutor a mantener una entonaci´on plana adem´as de reducir errores de pronunciaci´on.
4.2.3.
Par´ametros t´ecnicos del equipo
El equipo para la adquisici´on de las se˜nales que hacen parte del corpus del sintetizador, as´ı como el registro electr´onico de se˜nales para el clasificador, posee estas caracter´ısticas:
Micr´ofono Shure SM58, din´amico unidireccional (cardiode) dise˜nado para vocalistas profesionales. Filtro esf´erico incorporado, que reduce los ruidos causados por el viento y el aliento.
Patr´on direccional.
Dispersion polar de cardiode, que a´ısla la fuente sonora principal a la vez que reduce los ruidos de fondo.
Sistema close-talk, a fin de orientar al m´aximo la emisi´on del hablante y reducir las emisiones de ruido de fondo.
Procedimiento de grabaci´on bajo condiciones de bajo nivel de ruido ambiental.
Ubicaci´on a una distancia promedio de 10 a 20cm del locutor como se muestra en la figura4.2
4.2.4.
Preproceso
Para atenuar las perturbaciones de los segmentos de voz grabados, debidos al ruido intr´ınseco del hardware utilizado en el momento de la recolecci´on de se˜nales de voz como se ve en la figura 4.3 con la palabra / salir /, se utiliza un filtro pasa bajas con atenuaci´on de 30 dB que se encuentra implementado en la herramienta WavePad, usada para grabar y editar los archivos de voz. La se˜nal filtrada se muestra en la figura 4.4.
Figura 4.2:Adquisici´on las se˜nales de voz
Figura 4.3:Se˜nal grabada sin preproceso
Figura 4.4:Se˜nal filtrada
Durante el proceso de grabaci´on, en la mayor´ıa de los casos, se generan espacios sin voz, debido a que se empieza a hablar despu´es de oprimir el bot´on de inicio de grabaci´on, as´ı como al terminar de hablar y detener la grabaci´on (figura 4.5; a este espacio sin voz, lo llamaremos vac´ıo, por no contener informaci´on de sonido importante. Una vez que han sido grabados los segmentos de voz, es necesario eliminar el vac´ıo que se tiene al inicio y fin de la s´ılaba, como se observa en la figura 4.6
Figura 4.5:Se˜nal grabada sin recorte de espacios
Figura 4.6:Se˜nal filtrada y recortada
Este recorte, nuevamente se lleva acabo, utilizando la herramienta de edici´on de sonidos WavePad. Una vez que se ha llevado a cabo este recorte, la se˜nal de voz concatenada con otra unidad (deseas-salir)queda como se observa en la figura 4.7.
Figura 4.7:Se˜nal con preproceso
Si no se llevara a cabo este recorte de vac´ıo, ocasionar´ıa demasiado espacio entre una s´ılaba y otra, pues el vac´ıo al final de una s´ılaba se sumar´ıa con el vac´ıo al inicio de la otra s´ılaba, al momento de concatenar estas s´ılabas para su reproducci´on final, como se ilustra en la figura 4.8.
Con este recorte del vac´ıo se mejora la naturalidad de la pronunciaci´on de voz, as´ı como la reducci´on signi- ficativa del espacio en el disco utilizado para cada archivo. En las pruebas se logr´o una reducci´on de espacio del orden del 30
Figura 4.8:Segmentos concatenados sin preproceso