• No results found

cured improved

BIBLIOGRAPHY

Este bloque consta de 6 sub-bloques (ver sección 3.2.3) encargados de filtrar y acondicionar la señal de voz, el resultado obtenido en cada uno de estos sub-bloques es mostrado a continuación.

4.3.1

F

ILTRO

N

O

.1

“F

ILTRO PASA BAJAS

”.

Con el fin de eliminar ruido de alta frecuencia y limitar la señal voz al ancho de banda de interés. La señal adquirida se somete a un filtro digital Pasa-Bajas tipo FIR de orden 50, con una frecuencia de corte a bajas de 4.5kHz y un rizo en la banda de rechazo por debajo de los -60dB. En la figura 4.1. se muestra una comparación entre las figuras de merito para el filtro deseado y el filtro obtenido mediante el método de muestreo en frecuencia.

a ) b )

F i g u r a 4 . 1 . R e s p u e s t a a ) F i g u r a d e m e r i t o d e l f i l t r o i d e a l d e s e a d o b ) F i g u r a d e m e r i t o o b t e n i d a , m e d i a n t e e l m é t o d o d e m u e s t r e o e n f r e c u e n c i a , u t i l i z a n d o e l a l g o r i t m o d e

P a r k s - M c C l e l l a n .

4.3.2.

P

RE

-

ÉNFASIS

,

N

ORMALIZACIÓN Y ELIMINACIÓN DE LA

COMPONENTE DE

CD

EN LA SEÑAL DE VOZ

.

Con estos procedimientos: Pre-énfasis, normalización y eliminación de la componente de CD, se busca acondicionar la señal de voz para hacerla homogénea con respecto a todas las muestras de la etapa de entrenamiento y menos susceptible a los efectos del cálculo digital.

Los resultados de estos procedimientos son mostrados en la Figura 4.2., en la cual, en (a) se observa la señal capturada por el micrófono antes de aplicar las tres etapas y la señal después de aplicarlas, ambas señales están en el dominio del tiempo, mientras que en (b) se observa los espectrogramas de las dos señales en los cuales es posible ver como el espectro en magnitud ha cambiado después del proceso.

4.3.3

D

ETECTOR DE ACTIVACIÓN DE VOZ

(VAD).

La tarea de clasificación de segmentos de voz de segmentos de silencio de una manera automatizada, no es tan trivial como inicialmente podría parecer y la mayor parte de los algoritmos clásicos como: la verificación de cruces por cero, umbral por energía, fallan cuando el nivel de ruido de fondo se incrementa, en una situación real esto es inevitable, por lo que es necesario implementar un detector de activación de voz robusto.

La aplicación del concepto de entropía para la implementación de un VAD robusto, radica en la suposición que el espectro de la señal es más organizado durante segmentos de voz, por lo que presentara una entropía menor comparado con segmentos de silencio que presentan un espectro mas caótico, además que el valor de la entropía de los segmentos de ruido no es dependiente del nivel de ruido sino solo de su naturaleza [3], por lo que, el umbral establecido no dependerá del nivel de este.

1 .- Calcular la entropía

H Y(

( )ω,t

2

)

, de acuerdo con la ecuación 3.8 del capítulo 3.

Es necesario segmentar la señal de voz en t segmentos, en nuestro

caso se eligió segmentos de 552 muestras equivalente a 25ms de señal, para

un muestreo de 22kHz y con ello formar una matriz de segmentos M(t,552).

Para cada segmento resultante se le obtiene la transformada de Fourier para 1024 puntos y después es almacenado su espectrograma de cada segmento

en una nueva matriz F(t ,552). Debido a la simetría de la transformada de

Fourier solo se toman 552 puntos de la misma y no los 1024.

a )

a )

b )

F i g u r a 4 . 2 . a ) S e ñ a l c a p t u r a d a y p r o c e s a d a e n e l d o m i n i o d e l t i e m p o , y b ) E s p e c t r o g r a m a s d e l a s e ñ a l c a p t u r a d a y p r o c e s a d a .

Los resultados obtenidos se muestran en la Figura 4.3 en donde se

observa un segmento

t

de 25ms. en el dominio del tiempo y su respectivo

espectrograma. La probabilidad

P Y(

( )ω,t

2

)

(Ver ecuación 3.8 del capitulo 3),

es la probabilidad de la banda de frecuencia

ω

, para la magnitud espectral

(a) (b)

Figura 4.3. a) Segmento de voz de 25ms y b) su espectrograma.

Figura 4.4. Probabilidad de la banda de frecuencia

ω

, para el espectrograma

mostrado en la figura 4.3.b.

2.- Finalmente se obtiene la función de entropía

H Y(

( )ω,t

2

)

, con la finalidad

de observar que segmentos están por debajo del umbral establecido y que serán considerados como voz. Una comparativa entre el método propuesto y el método clásico por umbral de energía son mostrados de una forma gráfica en la Figura 4.5. En (a) puede observarse la función de entropía para un segmento de voz con SNR=100, mientras que en (b) es mostrado la implementación del método clásico por umbral de energía para el mismo segmento de voz y con la misma relación señal a ruido.

a ) b ) c ) d ) F i g u r a 4 . 5 . a ) F u n c i ó n d e e n t r o p í a , b ) F u n c i ó n d e e n e r g í a , c ) V A D p o r e n e r g í a p a r a S N R = 1 0 0 , y d ) V A D p o r e n t r o p í a p a r a S N R = 1 0 0 d B .

En la Figura 4.5.c se muestra el resultado de aplicar el método clásico por umbral de energía, para un umbral inferior de 10% de la energía total y un umbral superior de 90% de la energía total. Finalmente en la Figura 4.5.d se observa el resultado obtenido aplicando el método de la entropía para un

umbral fijado en

η⋅log( )Ω

dónde

η=1.5

.

En ambos métodos se observan un buen resultado para discriminar entre inicio y fin de la señal de voz, pero al disminuir la relación señal a ruido a un nivel de 10dB, el método clásico por umbral de energía decrece en gran medida su robustez, en cambio el método por la entropía es capaz de discriminar entre segmentos de voz de segmentos de silencio; como puede observarse en la Figura 4.6.

4.3.4.

E

STIMACIÓN DEL ESPECTRO DEL RUIDO

.

El espectro del ruido es estimado durante los periodos de inactividad de voz detectados por el VAD. Una vez obtenido el periodo de inactividad de voz se procede a calcular el estimador no lineal basado en la ecuación (3.10) del capitulo 3.

P r o c e d i m i e n t o .

1.- Se procede a calcular max

(

( )

2

)

M muestras N f

de la ecuación 3.10 del capítulo 3. Para lograrlo es necesario segmentar la señal considerada como ruido por el VAD en t cuadros de 25ms, a los cuales se le aplica la función ventana de Hamming (Ver Tabla 2.1, capítulo 2). Para cada segmento

resultante se obtiene su

N f( )

2 y se determina su valor máximo (ver Figura 4.7). a ) b ) c ) D e t e c t a d o c o m o v o z D e t e c t a d o c o m o v o z d ) D e t e c t a d o c o m o v o z F i g u r a 4 . 6 . a ) F u n c i ó n d e e n t r o p í a , b ) F u n c i ó n d e e n e r g í a , c ) V A D p o r e n e r g í a p a r a S N R = 1 0 d B , y d ) V A D p o r e n t r o p í a p a r a S N R = 1 0 d B .

2.-Una vez obtenido el numerador de la ecuación 3.10 calculamos

denominador dado por

1+ξSNR f( )

, donde

ξ

=100

es un parámetro del

diseño el cual fue establecido a prueba y error, debido a que en la literatura

[4] no se especifica su valor. La Figura 4.8 muestra las funciones

SNR f( )

y

( )

2

NL

N f .

4.3.5

F

ILTRO

N

O

.2.

“S

USTRACCIÓN ESPECTRAL

La sustracción espectral es un método para restauración del espectro en potencia de una señal contaminada con ruido aditivo, a través de la sustracción de un estimado del promedio del espectro del ruido, de la señal de ruido [5]. El método propuesto en esta tesis esta basado en un estimador no lineal mostrado en la sección 3.2.3.5. El diagrama de este sub-bloque está basado en el la Figura 3.4 del capítulo 3.

A continuación se mostraran los resultados obtenidos de aplicar cada uno de los bloques que conforman este método.

a ) D e t e c t a d o c o m o voz b ) c ) F i g u r a 4 . 7 . a ) V A D p o r e n t r o p í a p a r a S N R = 1 0 d B , b ) M a g n i t u d e s p e c t r a l p a r a u n s e g m e n t o d e 2 5 m s , y c ) max

( )

N

( )

f 2 M muestras a ) b ) F i g u r a 4 . 8 . a ) F u n c i ó n SNR f( ), y b ) F u n c i ó n N

( )

f 2 NL.

1) D e t e c to r d e a c t i v i d a d d e v o z . Este procedimiento es mostrado en la

sección 4.3.3 de este capítulo.

2) Transformada de Fourier discreta (DTF). La señal es segmentada en bloques de 25ms con un traslape al 50% y ventaneada con la función de Hamming. Este procedimiento en forma grafica es mostrado en la Figura 4.9, donde se muestran 6 segmentos ventaneados en el dominio del tiempo y su magnitud espectral y de fase de solo uno de ellos.

a ) b) c ) F i g u r a 4 . 9 . a ) P r o c e s o d e v e n t a n e o y t r a s l a p e e n l a s u s t r a c c i ó n e s p e c t r a l b ) E s p e c t r o g r a m a d e u n s e g m e n t o d e 2 5 m s . v e n t a n e a d o , y c ) E s p e c t r o e n f a s e p a r a e l s e g m e n t o m o s t r a d o e n b ) .

3) Filtro pasa bajo (LPF). El propósito del LPF es reducir el proceso de distorsión (varianza del ruido) debido a las variaciones del ruido. En la Figura 4.10 es mostrado el espectrograma de la Figura 4.9.b así como también el mismo espectrograma después del proceso.

F i g u r a 4 . 1 0 . E f e c t o d e f i l t r a r e l e s p e c t r o e n p o t e n c i a c o n e l f i l t r o r e c u r s i v o d a d o p o r l a e c u a c i ó n 3 . 1 5 p a r a u n f a c t o r d e ρ =0.75

4) Post procesamiento (PSP). Este procedimiento es implementado para reducir la distorsión debida a la sustracción espectral conocida como ruido musical.

Este proceso se muestra en la Figura 4.11, en la cual se observa el espectrograma resultante después del proceso de sustracción espectral y la eliminación de aquellos segmentos considerados como ruido musical.

Debido a que la principal característica del ruido musical en el dominio de la frecuencia es que tiende a tener un tiempo de vida muy corto y con amplitud relativamente pequeña en comparación con el espectro de una señal de voz o música. Para eliminar el ruido musical es necesario implementar una ventana móvil de 6 muestras sobre el espectrograma resultante de la sustracción espectral e identificar aquellas muestras que estén por debajo del umbral dado por la ecuación 3.16 del capítulo anterior y que tengan un tiempo de vida igual a 3 muestras, las cuales son reemplazadas por muestras con valor igual a cero (Ver figura 4.11).

F i g u r a 4 . 1 1 . P r o c e s o d e p o s t p r o c e s a m i e n t o p a r a l a e l i m i n a c i ó n d e l r u i d o m u s i c a l e n l a s u s t r a c c i ó n e s p e c t r a l .

5) Transformada inversa de Fourier (IDTF). Este proceso es necesario para transformar la señal procesada en el dominio de la frecuencia al dominio del tiempo. Esto se logra combinando la magnitud del segmento de 25ms procesado, mostrado por la Figura 4.11 con la fase de la señal con ruido mostrada en la Figura 4.9.c.

3) Bloque de atenuación. El atenuador

γ

tiene como objetivo atenuar el

ruido durante periodos de silencio, como se muestra en la Figura 4.12.

F i g u r a 4 . 1 2 . P r o c e s o d e l s u b b l o q u e a t e n u a c i ó n e n l a s u s t r a c c i ó n e s p e c t r a l .

Los resultados de aplicar la etapa de sustracción espectral a una señal de voz para diferentes SNR son mostradas en la Figura 4.13. Cabe mencionar que el VAD está calibrado de tal manera que cuando la SNR está dentro del intervalo (75<=SNR<=100) la detección se lleva a cabo por el método de umbral de energía como es el caso de la Figura 4.13.d. Este umbral fue establecido a un valor igual a 2% del valor máximo de la función de energía obtenida del total de todos los segmentos de 25ms.

4.3.6

S

EGMENTACIÓN DE LA SEÑAL DE VOZ Y VENTANEADO

.

Este proceso considera a la señal de voz como un proceso estacionario en el sentido más general por lo que se pude aplicar los conceptos matemáticos para modelar las características de cada usuario. El proceso es semejante al ilustrado en la Figura 4.9.a.

Related documents