• No results found

THEORETICAL FRAME OF REFERENCE

El comportamiento logar´ıtmico del sistema auditivo humano y la naturaleza pasa-bajas en dominio frecuencial de las se ˜nales de audio hace posible el modelado por predicci ´on lineal mediante escalas deformadas (warped), donde la aproximaci ´on a la envolvente espectral posee mejor resoluci ´on en el intervalo de frecuencias audibles de inter ´es. Es- to origina las t ´ecnicas de predicci ´on lineal a escalas compactas distorsionadas (Sturbe, 1980), donde la mejor resoluci ´on se da al tener una mayor concentraci ´on de polos en la banda frecuencial de inter ´es para representar mejor la regi ´on espectral deseada y poderla escuchar mejor.

Una deformaci ´on (warping) puede aplicarse ya sea en el an ´alisis o s´ıntesis por pre- dicci ´on lineal a una se ˜nal de audio, con esto la envolvente espectral es arbitrariamente distorsionada sin afectar su estructura interna.

Existen diversos m ´etodos de deformaci ´on de la escala frecuencial, el m ´as com ´un de ellos consiste en reemplazar los elementos de retardo unitarios de una estructura con- vencional por elementos pasa-todo de primer orden. El ajuste en la resoluci ´on espectral puede aproximar la resoluci ´on frecuencial audible humana. Autores como H ¨arm ¨a y Laine (2001) han empleado t ´ecnicas de predicci ´on lineal por deformaci ´on espectral (WLPC) en el an ´alisis de voz y aplicaciones de codificaci ´on.

La funci ´on de transferencia paso-todo de primer orden de un filtro todos polos est ´a da- da por:

D(z) = z −1λ

1λz−1, (38)

lo cual reduce a una simple unidad de retardo con fase lineal y retardo de grupo constante. La frecuencia de punto de inflexi ´on ftp (turning-point frequency) define la frecuencia a la cual la distorsi ´on no afecta la resoluci ´on frecuencial, esto es, cuando el retardo de grupo es uno. La expresi ´on (39) define aftpcomo una funci ´on del factor de distorsi ´onλy

la frecuencia de muestreo y es dada por:

ftp =± fs

2πarc cosλ. (39)

La resoluci ´on frecuencial de un sistema distorsionado conλ0es altamente por debajo y altamente por arriba deftp que en un sistema convencional con resoluci ´on frecuencial

uniforme.

El c ´alculo del valor de distorsi ´on espectral λ es un factor fundamental en WLPC que puede ser calculado en funci ´on de la frecuencia de muestreo y coincide con la transici ´on hacia la escala psicoac ´ustica Bark (Smith y Abel, 1999), la cual es modelada para coincidir con la percepci ´on logar´ıtmica humana:

λfs = 1.0674 2 π arctan(0.06583fs/1000) 1/2 −0.1916. (40)

En la Figura 22 se muestra una comparaci ´on entre las envolventes espectrales estimadas por predicci ´on lineal convencional (LPC) y predicci ´on lineal con distorsi ´on (WLPC) para una se ˜nal de audio que fue muestreada a 44kHz. Puede observarse una resoluci ´on mejor en la banda baja de frecuencias por WLPC (por debajo de los 7kHz) en la definici ´on de la envolvente. 0 2 4 6 8 10 12 14 16 18 20 22 −100 0 100 Frecuencia (kHz) Ma gnitud (dB ) Estimación LPC Estimación WLPC Espectro en potencia

Comparación entre la envolvente LPC y WLPC con predictor p=37 a una señal muestreada a 44 kHz

0 0.7 1.7 3.5 10.6 0 0.7 1.7 3.5 10.6 0 0.7 −100 0 100 Frecuencia (kHz) Ma gnitud (dB ) Espectro en potencia Estimación WLPC Estimación LPC

Figura 22: Comparaci ´on de la envolvente espectral de una se ˜nal proveniente de un sonido de piano muestreada confs= 44kHzy un orden de predicci ´onp= 37por los m ´etodos LPC y WLPC.

4.5.2. Codificaci ´on predictiva lineal con excitaci ´on por voz (VELPC)

La se ˜nal de error e(n) proveniente de la salida del filtro FIR predictor reconstruye perfectamente la entrada x(n) a la salida del filtro reconstructor inverso IIR. Si se toma un n ´umero de coeficientes M de la transformada discreta del coseno (DCT) de e(n) tal queM < N dondeN es la longitud de esta se ˜nal se habr ´a logrado una compresi ´on. En efecto, la excitaci ´on al filtro IIR de reconstrucci ´on estar ´a dado por la transformada inversa del coseno (IDCT) correspondiente a estos M coeficientes. Esta t ´ecnica es conocida como predicci ´on lineal con excitaci ´on por voz (Voice-excited LPC).

La tarea de determinar el n ´umero M de coeficientes ideal para reconstruir con pre- cisi ´on x(n) puede realizarse con un an ´alisis de componentes principales dado por la

transformada de Karhuenen Lo `eve(Jayant, 1974). Este procedimiento trata de descom- poner en valores singulares la matriz de autocorrelaci ´on de la entradax(n)y analizar su comportamiento gr ´afico.

Para el codificador dise ˜nado por este trabajo de tesis se usar ´a la t ´ecnica convencional de LPC para el modelado de la parte estoc ´astica, sin embargo, es importante para el lector conocer las variantes WLPC y VELPC que pueden emplearse en esta codificaci ´on para trabajos posteriores.

Cap´ıtulo 5.

Conformaci ´on del c ´odec propuesto

Una vez definidos los conceptos necesarios para el modelado de la parte determin´ısti- ca (Matching Pursuit) y la parte estoc ´astica (Codificaci ´on predictiva lineal) del codificador de audio propuesto para este trabajo de tesis, es conveniente mostrar los elementos necesarios para dise ˜narlo. Para ello, se tomar ´an los par ´ametros necesarios de ambos modelados que reconstruyan con precisi ´on la se ˜nal de audio cardiaco.

Una vez obtenidos los par ´ametros necesarios para conformar el c ´odec es necesario cuantificarlos, este requerimiento es necesario en el sentido de representarlos por medio de palabras c ´odigo para ser almacenados. La cuantificaci ´on es un proceso irreversible de compresi ´on con p ´erdidas en la codificaci ´on de toda se ˜nal de audio, el cual por lo tanto debe ser cuidadosamente analizado para que no se distorsionen en gran medida los par ´ametros que se han cuantificado.

En este cap´ıtulo se muestran los pasos necesarios para la conformaci ´on del codifi- cador de audio cardiaco; la extracci ´on de los par ´ametros y su cuantificaci ´on. Por ´ultimo se definir ´an las tasas de compresi ´on y medidas de distorsi ´on generadas por las se ˜nales codificadas para comparar el c ´odec de manera objetiva.

5.1. Estructura del codificador-decodificador propuesto

Para el desarrollo, modelado y pruebas realizadas al codificador y otros procesos du- rante este trabajo de tesis se han seleccionado 10 se ˜nales de audio cardiaco con duraci ´on de 5 segundos desde una base de datos disponible en el sitio web oficial de Litman c, desarrolladores de estetoscopios y otras herramientas de diagn ´ostico cl´ınico (Litmann, 2013).

Se han obtenido las se ˜nales indicadas en la Tabla 2 en formato .wav muestreadas a 11,025 Hz. Por cuestiones de compatibilidad con los diccionarios en la descomposici ´on las se ˜nales han sido remuestreadas a 8,000 Hz.

El codificador de audio propuesto para este trabajo de tesis consta de los dos mode- lados matem ´aticos b ´asicos mostrados en los cap´ıtulos anteriores (MP y LPC).

Tabla 2: Sonidos de la base del sitio web Littman canalizados en este trabajo de tesis. Tomados de (Litmann, 2013).

Nombre de la se ˜nal

Divisi ´on normal del primer ruido (Normal Split S1) Divisi ´on normal del segundo ruido (Normal Split S2) S3

S4

Murmullo sist ´olico temprano (Early Systolic Murmur) Murmullo sist ´olico tard´ıo (Late Systolic Murmur) Clic de eyecci ´on (Ejection Click)

Chasquido de apertura (Opening Snap) Murmullo pansist ´olico (Pansystolic Murmur) Soplo diast ´olico (Diastolic Rumble)

La Figura 23 muestra la estructura del codificador dise ˜nado, cuyas etapas ser ´an breve- mente explicadas en esta secci ´on. El canal de distribuci ´on y/o almacenamiento no ser ´a re- ferido durante este trabajo.

Por otra parte, en la Figura 24 se muestra el procedimiento de decodificaci ´on, cuyas etapas son las necesarias para la conformaci ´on de la se ˜nal de audio reconstruida, la cual ser ´a analizada en t ´erminos de porcentaje de compresi ´on, distorsi ´on y niveles de error cuadr ´atico medidos desde la se ˜nal de audio cardiaco original.

Figura 24: Estructura del decodificador para audio cardiaco propuesto.

Related documents