4.5 The Decrease of two ratios between 1978 and 1993
4.5.2 The decrease of Central government budgetary revenue among the total
Tal y como se vio en el Cap´ıtulo 1, una de las etapas para la producci´on de voz es laFuente Gl´otica, la cual se puede definir seg´un el modelo cl´asico de Fant, reproducido en la Figura 3.5, como “la onda de presi´on que se genera en el borde supragl´otico de los pliegues vocales durante la emisi´on de una fonaci´on, en que los pliegues vocales modulan el flujo de aire expulsado por los pulmones a trav´es de la laringe”. La fuente y el flujo gl´otico son dos se˜nales que est´an ´ıntimamente relacio- nadas, porque en ciertas ocasiones pueden comprenderse como derivada e integral, aunque desde una orientaci´on de estimulaci´on del tracto oro-naso-far´ıngeo (TONF) es preferible la primera definici´on, es decir, la presi´on supragl´otica, dado que la cima o c´uspide negativa aguda presente en la misma (MFDR: Maximum Flow Declination Rate) se considera el elemento relevante para explicar el despliegue arm´onico seg´un el modelo de Fant [50]. Estas y otras cuestiones se debatieron en el International Voi- ce Symposium que se celebr´o en la Universidad de Nueva York en enero de 2014 [61]. El modelo presenta el proceso de producci´on del habla en forma de un sistema combinado por varias etapas o subsistemas: excitaci´on gl´otica, excitaci´on turbulen- ta, combinaci´on de estas dos ´ultimas se˜nales, tracto oro-naso-far´ıngeo y radiaci´on. Este modelo se puede definir como in-out, es decir, desde dentro hacia el exterior. Este concepto obtendr´a m´as relevancia cuando se defina la hip´otesis inicial (v´ease Secci´on 3.3.3) de la parametrizaci´on de emociones en este trabajo, la cual est´a ex- plicada como un modelo inverso y que se definir´a comoout-in.
3.3. RASGOS PROPUESTOS
Figura 3.5: Modelo de Fuente-Filtro de Gunnar Fant.
El modelo de excitaci´on gl´otica denotado porFg(z), representa la fuente fonada
obtenida a trav´es de la vibraci´on de los pliegues vocales, mientras que el modelo de excitaci´on turbulenta definido por Ft(z) presenta aquellas excitaciones sonoras
producidas a causa de las turbulencias ocasionadas en los estrechamientos por los que trascurre el flujo de aire: pliegues vocales, falsos pliegues vocales, zona palato- far´ıngea, puntos de articulaci´on (labiales, palatales, dento-alveolares), e incluso por las fosas nasales. La se˜nal de excitaci´on e(n) tambi´en denominada como “fuente”, es la suma de ambas componentes de excitaci´on, la gl´otica o fonada y la turbulenta sin fonaci´on. Hay que tener en cuenta que la fuente incluir´a mayor o menor canti- dad de esta ´ultima componente dependiendo del tipo de voz asociada, es decir, las voces conocidas como a´ereas poseen una mayor cantidad de componente turbulenta que otro tipo de voces. Por consiguiente, este hecho se deber´a de tener en cuen- ta en etapas posteriores. Cuando este fen´omeno tiene lugar, el sonido presenta un patr´on espectral caracter´ıstico de los sonidos definidos como “sonoros”. La tupla arm´onico-turbulencia es una caracter´ıstica fundamental que se puede ver alterada en voces disf´onicas. ´Estas se pueden dar en pacientes con enfermedades org´anicas neurodegenerativas tales como Esclerosis Lateral Amiotr´ofica (ELA) y Parkinson. Hay que destacar que la segunda componente, la turbulenta, siempre se encuentra presente en mayor o menor medida, mientras que la arm´onica puede que se reduzca o no dependiendo de la funci´on de los pliegues vocales.
Partiendo de los conceptos deresonancia yantirresonancia, la cual se denomina como la amplitud de vibraci´on igual a cero de un sistema mec´anico, se puede ex- plicar el comportamiento de la siguiente etapa, el modelo tracto oro-naso-far´ıngeo. El tracto oro-naso-far´ıngeo esta dividido en cavidad supr´agl´otica, faringe baja, zona velofar´ıngea, cavidad nasal y oral. Dichas cavidades presentan unas peculiaridades ac´usticas, basadas en resonancias que dependiendo de la conexi´on entre ellas, gober- nadas por el “cierre” velofar´ıngeo, pueden configurarse como resonancias orales y antirresonancias nasales, o como resonancias nasales y antirresonancias orales. Para resumir este modelo, cabe decir que las resonancias y antirresonancias resultantes modifican espectralmente la se˜nal sa(n) que entra a la siguiente etapa que es el mo-
delo de radiaci´on.
El modelo de radiaci´on (denotado por Fl(z)) es un elemento a tener en cuenta
cuando se realizan grabaciones de voz. Tal y como se describi´o en la secci´on Obje- tivos, uno de ellos era realizar una base de datos fiable y de calidad. El sistema o metodolog´ıa de grabaci´on es cr´ıtico para obtener grabaciones con un alto est´andar de calidad. El punto de emisi´on, la distancia de captura y el canal son las condiciones a controlar para una buena grabaci´on. A continuaci´on se explica cada una de las condiciones:
Elpunto de emisi´on se refiere a los puntos donde se est´a emitiendo o radiando sonido. Los puntos clave de emisi´on son por orden de importancia los labios, las fosas nasales y su entorno facial, la caja tor´acica y la zona frontal y temporal del cr´aneo. Cada una de estas partes influye en la funci´on de transmisi´on de radiaci´on y en su direccionalidad. Los labios se caracterizan por aportar la mayor propagaci´on de energ´ıa, adem´as de un m´aximo ancho de banda. Las fosas nasales y su entorno facial presentan un aspecto clave en cuanto se habla de canto. La caja tor´acica constituye un radiador muy eficaz en bajas frecuencias.
La distancia modifica la intensidad sonora. Otro aspecto interesante de la distancia es que suele influir en la presencia de efectos sonoros indeseados tales como el ruido de ambiente o la reverberaci´on del habit´aculo donde se est´e realizando la grabaci´on.
Elcanal se refiere al medio utilizado para captar la voz. Por lo tanto, aspectos como la placa de audio, la frecuencia de muestreo y el n´umero de bits son caracter´ısticas a tener en cuenta. Sin olvidar factores como la sensibilidad del micr´ofono en amplitud, frecuencia y direcci´on.
Finalmente, otro aspecto importante a tener en cuenta para la reconstrucci´on de una buena fuente gl´otica es la interacci´on de la fuente y el filtro. Esta interacci´on se basa en la reverberaci´on de la onda por su paso por los pliegues vocales hasta llegar a la zona de radiaci´on. Las vocales cerradas como son la /i/ y /u/, adem´as de algu- nas consonantes nasales, ofrecen una mayor alteraci´on en el patr´on de fonaci´on de la fuente gl´otica. Teniendo en cuenta que los procesos de inversi´on del TONF suelen basarse en filtrado inverso, el cual suele ser m´as robusto con funciones de transferen- cia dominadas por resonancias que cuando existen antirresonancias, es conveniente descartar vocales cerradas, como la /i/ o la /u/, o excesivamente nasalizadas. Por este motivo, en el Cap´ıtulo 2, conjunto de datos por caso pr´actico, la selecci´on de vocales utilizadas para extraer los par´ametros caracter´ısticos han sido las vocales /a/ y /e/, dada su mejor predisposici´on a la hora de reconstruir la fuente gl´otica.
El procedimiento de inversi´on del TONF y la reconstrucci´on de la Fuente Gl´otica pueden verse en la Figura 3.6 y se explicar´an a continuaci´on.
El proceso de inversi´on iterativo tiene como par´ametro de entrada la se˜nal de voz emitida por el locutor y como par´ametro de salida se obtiene el residual gl´otico.
3.3. RASGOS PROPUESTOS
Figura 3.6: Proceso de inversi´on iterativo basado en filtros inversos y sus filtros espejo, implementados en la aplicaci´on BioMetRPhon.
Dicho proceso se compone de 5 etapas, 4 de ellas iterativas y que se pueden repetirn
veces hasta lograr obtener el residuo gl´otico ´optimo. Seguidamente se detallar´a cada etapa de este proceso.
1. El modelo inverso de radiaci´on denotado porHr(z) tiene como entrada la se˜nal
de vozs(n), la cual se obtiene a partir de la se˜nal microf´onica. En el proceso de modelado inverso del efecto de radiaci´on se han tenido en cuenta los posibles efectos adversos producidos por los puntos de radiaci´on (oral, nasal), el canal utilizado y la distancia utilizada en el momento de la grabaci´on. Todos ellos son nivelados devolviendo como resultado la se˜nal compensada sl(n).
2. sl(n) posee una gran influencia de la fuente gl´otica, por consiguiente es necesa-
rio realizar un proceso de “desglotalizaci´on” utilizando un modelo de hip´otesis inicial, definido como Hg0(z), por medio de un filtro de espejo que neutrali-
za en la medida de lo posible el efecto de la fuente gl´otica sobre la se˜nal de entrada, sl(n), obteniendo como resultado la se˜nal sv0(n).
3. Esta nueva se˜nal es modelada mediante filtrado inverso, para producir un modelo inverso del Tracto Oro-Naso-Far´ıngeo, el cual llamaremos, Hv0(z).
4. El primer residual gl´otico denominado sr0(n), se consigue a partir de la apli-
caci´on de otro filtro espejo sobre el modelo inverso del TONF y la se˜nal com- pensada en radiaci´on sl(n).
5. Una vez obtenido residual gl´otico sr0(n) se requiere la actualizaci´on de la
hip´otesis inicial Hg0(z) mediante un sistema inverso para generar una funci´on
del pulso gl´otico Hg1(z), momento en el cual las etapas 2 a 5 se repetir´an
tantas veces como sean necesarias hasta obtener un residual gl´otico denotado por sri(n).
Una vez que se ha obtenido el residual gl´otico, este se utiliza para obtener la fuente gl´otica y el flujo gl´otico. En la Figura 3.7 se representan las diferentes etapas desde la se˜nal de voz radiada s(n) hasta la obtenci´on del flujo gl´otico. En la Figura 3.7a) se muestra la se˜nal de voz de entrada. Una vez realizado todo el proceso de inversi´on iterativo explicado anteriormente se obtienesri(n), el cual queda represen-
tado en la Figura 3.7b). Dicho resultado se basa en todo el proceso ilustrado en la Figura 3.6. A continuaci´on si se realiza un proceso de compensaci´on o nivelado de los efectos de la fuente y el filtro, da como resultado la onda de presi´on supragl´otica, la cual es conocida comunmente como fuente gl´otica. Esta onda queda ilustrada en la Figura 3.7c). Nuevamente, esta ´ultima se˜nal se vuelve a procesar mediante el sistema equivalente de pliegues vocales y tracto oro-naso-far´ıngeo, dando como resultado el
flujo gl´otico, el cual queda representado en la Figura 3.7d). Las caracter´ısticas m´as importantes de esta onda o patr´on son la pendiente inicial, la cual se puede rela- cionar con la presencia de p´erdidas por cierre defectuoso (gap permanente), y la pendiente final, relacionada con el Maximum Flow Declination Rate. El flujo gl´otico se puede definir como el escape de gas a trav´es de los pliegues vocales, el cual posee forma de pulso triangular. Dicho pulso presenta un arranque desde un m´ınimo con pendiente moderada, para crecer abruptamente, y disminuir a´un m´as r´apido hacia un nuevo m´ınimo.
Figura 3.7: Reconstrucci´on de la Fuente Gl´otica (c) y el Flujo Gl´otico (d) a partir de la voz (a).
Dada la relevancia de la fuente gl´otica, se ha decidido explicar con un poco m´as de detalle dicho patr´on, el cual se ha representado en la Figura 3.8.
3.3. RASGOS PROPUESTOS
Figura 3.8: Fuente Gl´otica t´ıpica. Parte superior: Reproducci´on de un ciclo gl´otico entre dos puntos MFDR (m´ınimos de presi´on). Parte inferior: tren de pulsos gl´oticos consecutivos, uno de los cuales (el central) se presenta en detalle en la parte superior. En su parte superior se puede observar el patr´on normativo de un pulso gl´otico (patr´on L-F o de Liljencrants-Fant [50]), caracterizado por los siguientes segmentos: 1. Tramo de recuperaci´on, el cual corresponde con el intervalo 0−tR1 que se basa en que la presi´on sonora din´amica en la zona supragl´otica vuelve a su valor nulo (presi´on atmosf´erica) tras una fuerte ca´ıda debido al cierre del tracto vocal.
2. Tramo de contacto en reposo, el cual corresponde al intervalo tR1 −tO2
que se sustenta en que la presi´on sonora din´amica deber´ıa ser pr´acticamente nula, por estar la glotis supuestamente cerrada.
3. Tramo de fuerte inyecci´on de flujo, el cual corresponde con el intervalo
tO2−tM que se corresponde con el aumento de la presi´on sonora din´amica hasta
un m´aximo por efecto de la apertura de los pliegues vocales (abducci´on). 4. Tramo de ca´ıda de la presi´on sonora din´amica, debido a la menor tasa de
inyecci´on de flujo a´ereo por unidad de tiempo, considerando que los pliegues vocales alcanzan un m´aximo en su separaci´on, a partir del cual vuelven a aproximarse (aducci´on). Este efecto limita el crecimiento del flujo y condiciona
su posterior ca´ıda. Es importante resaltar que seg´un Titze [180], cuando el flujo desciende a su m´aximo ritmo se produce el punto MFDR, momento en el cual la presi´on din´amica alcanza un m´ınimo, a partir del cual se repite el ciclo gl´otico. Por otro lado, seg´un la teor´ıa de Fant, la amplitud y agudeza del MFDR son los elementos de referencia para generar un buen despliegue arm´onico en la voz (n´umero y calidad de los arm´onicos en el espectro de potencia de la fuente gl´otica).