THEORETICAL FRAME OF REFERENCE - Performance Measurement at DHL Solutions

El comportamiento logar´ıtmico del sistema auditivo humano y la naturaleza pasa-bajas en dominio frecuencial de las se ñales de audio hace posible el modelado por predicci ón lineal mediante escalas deformadas (warped), donde la aproximaci ón a la envolvente espectral posee mejor resoluci ón en el intervalo de frecuencias audibles de inter és. Es- to origina las t écnicas de predicci ón lineal a escalas compactas distorsionadas (Sturbe, 1980), donde la mejor resoluci ón se da al tener una mayor concentraci ón de polos en la banda frecuencial de inter és para representar mejor la regi ón espectral deseada y poderla escuchar mejor.

Una deformaci ón (warping) puede aplicarse ya sea en el an álisis o s´ıntesis por predicci ón lineal a una se ñal de audio, con esto la envolvente espectral es arbitrariamente distorsionada sin afectar su estructura interna.

Existen diversos m étodos de deformaci ón de la escala frecuencial, el m ás com ún de ellos consiste en reemplazar los elementos de retardo unitarios de una estructura convencional por elementos pasa-todo de primer orden. El ajuste en la resoluci ón espectral puede aproximar la resoluci ón frecuencial audible humana. Autores como H ärm ä y Laine (2001) han empleado t écnicas de predicci ón lineal por deformaci ón espectral (WLPC) en el an álisis de voz y aplicaciones de codificaci ón.

La funci ´on de transferencia paso-todo de primer orden de un filtro todos polos est ´a dada por:

D(z) = z −1₋_λ

1₋λz−1, (38)

lo cual reduce a una simple unidad de retardo con fase lineal y retardo de grupo constante. La frecuencia de punto de inflexi ón ftp (turning-point frequency) define la frecuencia a la cual la distorsi ón no afecta la resoluci ón frecuencial, esto es, cuando el retardo de grupo es uno. La expresi ón (39) define aftpcomo una funci ón del factor de distorsi ónλy

la frecuencia de muestreo y es dada por:

ftp =± fs

2πarc cosλ. (39)

La resoluci ´on frecuencial de un sistema distorsionado conλ_≥0es altamente por debajo y altamente por arriba deftp que en un sistema convencional con resoluci ´on frecuencial

uniforme.

El c álculo del valor de distorsi ón espectral λ es un factor fundamental en WLPC que puede ser calculado en funci ón de la frecuencia de muestreo y coincide con la transici ón hacia la escala psicoac ústica Bark (Smith y Abel, 1999), la cual es modelada para coincidir con la percepci ón logar´ıtmica humana:

λfs = 1.0674 2 π arctan(0.06583fs/1000) 1/2 −0.1916. (40)

En la Figura 22 se muestra una comparaci ón entre las envolventes espectrales estimadas por predicci ón lineal convencional (LPC) y predicci ón lineal con distorsi ón (WLPC) para una se ñal de audio que fue muestreada a 44kHz. Puede observarse una resoluci ón mejor en la banda baja de frecuencias por WLPC (por debajo de los 7kHz) en la definici ón de la envolvente. 0 2 4 6 8 10 12 14 16 18 20 22 −100 0 100 Frecuencia (kHz) Ma gnitud (dB ) Estimación LPC Estimación WLPC Espectro en potencia

Comparación entre la envolvente LPC y WLPC con predictor p=37 a una señal muestreada a 44 kHz

0 0.7 1.7 3.5 10.6 0 0.7 1.7 3.5 10.6 0 0.7 −100 0 100 Frecuencia (kHz) Ma gnitud (dB ) Espectro en potencia Estimación WLPC Estimación LPC

Figura 22: Comparaci ón de la envolvente espectral de una se ñal proveniente de un sonido de piano muestreada confs= 44kHzy un orden de predicci ónp= 37por los m étodos LPC y WLPC.

4.5.2. Codificaci ´on predictiva lineal con excitaci ´on por voz (VELPC)

La se ñal de error e(n) proveniente de la salida del filtro FIR predictor reconstruye perfectamente la entrada x(n) a la salida del filtro reconstructor inverso IIR. Si se toma un n úmero de coeficientes M de la transformada discreta del coseno (DCT) de e(n) tal queM < N dondeN es la longitud de esta se ñal se habr á logrado una compresi ón. En efecto, la excitaci ón al filtro IIR de reconstrucci ón estar á dado por la transformada inversa del coseno (IDCT) correspondiente a estos M coeficientes. Esta t écnica es conocida como predicci ón lineal con excitaci ón por voz (Voice-excited LPC).

La tarea de determinar el n úmero M de coeficientes ideal para reconstruir con precisi ón x(n) puede realizarse con un an álisis de componentes principales dado por la

transformada de Karhuenen Lo ève(Jayant, 1974). Este procedimiento trata de descom- poner en valores singulares la matriz de autocorrelaci ón de la entradax(n)y analizar su comportamiento gr áfico.

Para el codificador dise ñado por este trabajo de tesis se usar á la t écnica convencional de LPC para el modelado de la parte estoc ástica, sin embargo, es importante para el lector conocer las variantes WLPC y VELPC que pueden emplearse en esta codificaci ón para trabajos posteriores.

Cap´ıtulo 5.

Conformaci ´on del c ´odec propuesto

Una vez definidos los conceptos necesarios para el modelado de la parte determin´ısti- ca (Matching Pursuit) y la parte estoc ástica (Codificaci ón predictiva lineal) del codificador de audio propuesto para este trabajo de tesis, es conveniente mostrar los elementos necesarios para dise ñarlo. Para ello, se tomar án los par ámetros necesarios de ambos modelados que reconstruyan con precisi ón la se ñal de audio cardiaco.

Una vez obtenidos los par ámetros necesarios para conformar el c ódec es necesario cuantificarlos, este requerimiento es necesario en el sentido de representarlos por medio de palabras c ódigo para ser almacenados. La cuantificaci ón es un proceso irreversible de compresi ón con p érdidas en la codificaci ón de toda se ñal de audio, el cual por lo tanto debe ser cuidadosamente analizado para que no se distorsionen en gran medida los par ámetros que se han cuantificado.

En este cap´ıtulo se muestran los pasos necesarios para la conformaci ón del codificador de audio cardiaco; la extracci ón de los par ámetros y su cuantificaci ón. Por último se definir án las tasas de compresi ón y medidas de distorsi ón generadas por las se ñales codificadas para comparar el c ódec de manera objetiva.

5.1. Estructura del codificador-decodificador propuesto

Para el desarrollo, modelado y pruebas realizadas al codificador y otros procesos durante este trabajo de tesis se han seleccionado 10 se ñales de audio cardiaco con duraci ón de 5 segundos desde una base de datos disponible en el sitio web oficial de Litman c, desarrolladores de estetoscopios y otras herramientas de diagn óstico cl´ınico (Litmann, 2013).

Se han obtenido las se ñales indicadas en la Tabla 2 en formato .wav muestreadas a 11,025 Hz. Por cuestiones de compatibilidad con los diccionarios en la descomposici ón las se ñales han sido remuestreadas a 8,000 Hz.

El codificador de audio propuesto para este trabajo de tesis consta de los dos modelados matem ´aticos b ´asicos mostrados en los cap´ıtulos anteriores (MP y LPC).

Tabla 2: Sonidos de la base del sitio web Littman canalizados en este trabajo de tesis. Tomados de (Litmann, 2013).

Nombre de la se ˜nal

Divisi ´on normal del primer ruido (Normal Split S1) Divisi ´on normal del segundo ruido (Normal Split S2) S3

Murmullo sist ólico temprano (Early Systolic Murmur) Murmullo sist ólico tard´ıo (Late Systolic Murmur) Clic de eyecci ón (Ejection Click)

Chasquido de apertura (Opening Snap) Murmullo pansist ´olico (Pansystolic Murmur) Soplo diast ´olico (Diastolic Rumble)

La Figura 23 muestra la estructura del codificador dise ñado, cuyas etapas ser án breve- mente explicadas en esta secci ón. El canal de distribuci ón y/o almacenamiento no ser á re- ferido durante este trabajo.

Por otra parte, en la Figura 24 se muestra el procedimiento de decodificaci ón, cuyas etapas son las necesarias para la conformaci ón de la se ñal de audio reconstruida, la cual ser á analizada en t érminos de porcentaje de compresi ón, distorsi ón y niveles de error cuadr ático medidos desde la se ñal de audio cardiaco original.

Figura 24: Estructura del decodificador para audio cardiaco propuesto.

In document Performance Measurement at DHL Solutions (Page 35-38)