• No results found

CHAPTER 5. PASSIVE, CONSULTATIVE, AND CO-CONSTRUCTIVE

5.2 Dimension 2: Project Phase

5.2.1 Problem Framing and Planning Methods

En esta secci´on se describe la base de datos para el corpus de unidades fon´eticas para la generaci´on de la voz sint´etica. Como se determin´o en un comienzo, la poblaci´on objeto de estudio la componen ni˜nos con edades comprendidas entre los 5 y 15 a˜nos con correcci´on de LPH de la regi´on central del pa´ıs; menores de ambos g´eneros y que se encuentren en tratamiento del habla y/o rehabilitaci´on de la voz en el Hospital

Infantil Universitariode la cruz roja Rafael Henao Toro.

4.2.1.

Adquisici´on y adecuaci´on de se ˜nales

El primer paso en la recolecci´on de se˜nales, es la conversi´on electro-ac´ustica, o transformaci´on mediante el micr´ofono de los desplazamientos del aire debidos a cambios de presi´on en la generaci´on de la voz, a energ´ıa el´ectrica que es de tipo an´aloga, o sea:

Γ{x(t)} = y(t) ∼ kx(t)

Donde x(t) es la se˜nal original de voz y k la constante de linealidad de conversi´on.

Sin embargo, al realizar la adquisici´on de se˜nales de voz en la pr´actica, hay distorsiones de amplitud y fase, que conllevan a la dependencia no lineal entre la entrada y salida del conversor, haciendo que este sea una fuente potencial de errores en el registro de las se˜nales.

Por lo anterior, es muy importante elecci´on del micr´ofono para el registro de voz. Las caracter´ısticas t´ecnicas son [9]:

Respuesta de frecuencia. La curva de respuesta en frecuencia debe tener el menor rizado o clase de variaci´on, debe ser constante y con el mayor ancho de banda posible.

Direccionalidad del patr´on. Entendido como la forma de concentraci´on de la energ´ıa recibida por el micr´ofono, con respecto al ´angulo cero desde la fuente de emisi´on sonora. Los patrones de recepci´on pueden ser omnidireccionales (patr´on circular) o direccionales (cardioide, el´ıpticos, etc.).

4.2.2.

Grabaci´on

Para el corpus del sintetizador se grabaron unidades fon´eticas variables, correspondientes a una voz de g´enero femenino y que pertenece al periodo de estabilidad vocal (entre 19 y 54 a˜nos) con 23 a˜nos de edad.

Las caracter´ısticas de los archivos de audio generados para el corpus son las siguientes : Formato de registro tipo *.wav.

Frecuencia de muestreo igual a 44100 Hz. Bits por muestra igual a 16.

Audio monof´onico: Canales de grabaci´on - 1.

La construcci´on del corpus es lo suficientemente rico en expresiones y contenidos fon´eticos, es decir, con diferentes construcciones gramaticales (diptongos, triptongos, palabras con acento, di´eresis, etc.). De igual

forma, involucra diferentes expresiones y palabras utilizadas en el contexto de los tratamientos fonoaudiol´ogi- cos que deber´a poder manejar el sistema.

El corpus de voz esta constituido por 927 frases fon´eticamente balanceadas (4095 palabras diferentes), em- pleadas en el contexto de las terapias de rehabilitaci´on del habla.

Las palabras son le´ıdas de forma que tengan el mismo tono, con una acentuaci´on y pronunciaci´on correcta, dentro de la prosodia caracter´ıstica de la region central del pa´ıs.

Las palabras grabadas son almacenadas en el directorio wav/ el que a su vez se encuentra bajo la estructura de directorio que contiene el proyecto de voz que se desarrolla. Para mantener una pronunciaci´on consistente, se hace que el locutor escuche las palabras previamente sintetizadas en el momento de realizar la grabaci´on. Esto ayuda al locutor a mantener una entonaci´on plana adem´as de reducir errores de pronunciaci´on.

4.2.3.

Par´ametros t´ecnicos del equipo

El equipo para la adquisici´on de las se˜nales que hacen parte del corpus del sintetizador, as´ı como el registro electr´onico de se˜nales para el clasificador, posee estas caracter´ısticas:

Micr´ofono Shure SM58, din´amico unidireccional (cardiode) dise˜nado para vocalistas profesionales. Filtro esf´erico incorporado, que reduce los ruidos causados por el viento y el aliento.

Patr´on direccional.

Dispersion polar de cardiode, que a´ısla la fuente sonora principal a la vez que reduce los ruidos de fondo.

Sistema close-talk, a fin de orientar al m´aximo la emisi´on del hablante y reducir las emisiones de ruido de fondo.

Procedimiento de grabaci´on bajo condiciones de bajo nivel de ruido ambiental.

Ubicaci´on a una distancia promedio de 10 a 20cm del locutor como se muestra en la figura4.2

4.2.4.

Preproceso

Para atenuar las perturbaciones de los segmentos de voz grabados, debidos al ruido intr´ınseco del hardware utilizado en el momento de la recolecci´on de se˜nales de voz como se ve en la figura 4.3 con la palabra / salir /, se utiliza un filtro pasa bajas con atenuaci´on de 30 dB que se encuentra implementado en la herramienta WavePad, usada para grabar y editar los archivos de voz. La se˜nal filtrada se muestra en la figura 4.4.

Figura 4.2:Adquisici´on las se˜nales de voz

Figura 4.3:Se˜nal grabada sin preproceso

Figura 4.4:Se˜nal filtrada

Durante el proceso de grabaci´on, en la mayor´ıa de los casos, se generan espacios sin voz, debido a que se empieza a hablar despu´es de oprimir el bot´on de inicio de grabaci´on, as´ı como al terminar de hablar y detener la grabaci´on (figura 4.5; a este espacio sin voz, lo llamaremos vac´ıo, por no contener informaci´on de sonido importante. Una vez que han sido grabados los segmentos de voz, es necesario eliminar el vac´ıo que se tiene al inicio y fin de la s´ılaba, como se observa en la figura 4.6

Figura 4.5:Se˜nal grabada sin recorte de espacios

Figura 4.6:Se˜nal filtrada y recortada

Este recorte, nuevamente se lleva acabo, utilizando la herramienta de edici´on de sonidos WavePad. Una vez que se ha llevado a cabo este recorte, la se˜nal de voz concatenada con otra unidad (deseas-salir)queda como se observa en la figura 4.7.

Figura 4.7:Se˜nal con preproceso

Si no se llevara a cabo este recorte de vac´ıo, ocasionar´ıa demasiado espacio entre una s´ılaba y otra, pues el vac´ıo al final de una s´ılaba se sumar´ıa con el vac´ıo al inicio de la otra s´ılaba, al momento de concatenar estas s´ılabas para su reproducci´on final, como se ilustra en la figura 4.8.

Con este recorte del vac´ıo se mejora la naturalidad de la pronunciaci´on de voz, as´ı como la reducci´on signi- ficativa del espacio en el disco utilizado para cada archivo. En las pruebas se logr´o una reducci´on de espacio del orden del 30

Figura 4.8:Segmentos concatenados sin preproceso