cured improved
DISCUSSION :
El objetivo de este proyecto es realizar un sistema de identificación de hablantes de conjunto cerrado capaz de identificar varios usuarios utilizando dígitos del 0 al 9, debido a que de esta manera el espacio muestral es reducido considerablemente. Se propone utilizar modelado paramétrico para el espectro de la señal de voz, mediante la codificación lineal predictiva (LPC) de orden 20 en unión de un análisis homomórfico como son los coeficientes Cepstrales para formar los coeficientes LPC-Cepstrum. Cabe aclarar que se ha puesto énfasis en la etapa de preprocesamiento debido a que se pretende capturar la señal de voz en un ambiente real el cual esta contaminado de ruido de muy diversos tipos, en este caso solo será considerado ruido aditivo. Finalmente se ha optado por utilizar un clasificador de mínima distorsión basado en vector de cuantización (VQ), el cual ofrece buenos resultados según la literatura y es factible de ser implementado en un DSP.
Para implementar este proyecto se ha decidido utilizar el software llamado MatLab que utiliza lenguaje M para implementar algoritmos y procesos, además de contar con las herramientas necesarias para este proyecto.
3.2.1.
D
IAGRAMA GENERAL A BLOQUES DEL SISTEMA.
El sistema cuenta de tres bloques principales como se muestra en la figura 3.1, el primer bloque es la etapa de adquisición encargada de digitalizar la señal de voz a través de una tarjeta de audio, el segundo bloque es la etapa de preprocesamiento, la cual consta de 6 sub-etapas encargadas de filtrar y acondicionar la señal de voz para la ultima etapa que es el bloque de clasificación encargado de extraer las características de la señal de voz y aplicar el algoritmo de identificación con el fin de obtener la identidad del usuario.
F i g u r a 3 . 1 . E s q u e m a g e n e r a l d e l s i s t e m a d e l r e c o n o c i m i e n t o d e l l o c u t o r p r o p u e s t o .
3.2.2.
B
LOQUE DE ADQUISICIÓN.
Este bloque tiene el objetivo de digitalizar la señal de voz mediante un micrófono de diadema Lifechat LX-3000 de Microsoft [1], conectado a la computadora por medio del puerto USB, cuyo patrón de radiación es unidireccional y su respuesta en frecuencia es de 20Hz a 20kHz, los parámetros de sensibilidad, saturación, y linealidad no son especificados por el fabricante, sin embargo, éste garantiza que dicho micrófono puede ser utilizado en aplicaciones de procesado de voz, además, se utiliza una tarjeta de audio Sound Blaster Audigy SB1394 [2] cuyas características son: calidad de audio 24-bit / 48kHz y claridad 100dB SNR.
El formato de grabación utilizado para el corpus es del tipo Wav monoaural debido que para el reconocimiento del locutor no es necesario tener dos canales de grabación. Dentro de las principales características del formato Wav tenemos que es un formato sin compresión por lo que el sonido es grabado sin realizar ningún tipo de modificación debido a esto, su calidad es considerada como muy buena, además, como es un formato originado por Microsoft cualquier computadora con sistema operativo Windows podrá generarlo e interpretarlo. En cuanto a la velocidad de muestreo elegida se considero el teorema de muestreo de Shannon, él cual determina que el tiempo de muestreo debe ser mayor que el doble de la frecuencia más alta a digitalizar y considerando que el ancho de banda para la voz es de 300Hz a 4kHz sería suficiente con 8kHz de velocidad de muestreo, sin embargo en la investigadores como Sadaoki Furui indica que para obtener mejores resultados debido a las diferentes etapas de procesamiento que sufre la señal de voz es conveniente una velocidad de muestreo de 22kHz y una calidad de audio de 16 bits por lo que se adoptó este valor.
3.2.3.
B
LOQUE DE PREPROCESADO.
Como se menciono anteriormente, este bloque esta compuesto de 6 sub-bloques como se muestra en la figura 3.2, los cuales son descritos más adelante.
3.2.3.1
F
ILTRON
O.1.
“P
ASA BAJAS”
Con el fin de eliminar ruido de alta frecuencia y limitar la señal voz al ancho de banda de interés. La señal adquirida se somete a un filtro digital Pasa-Bajas tipo FIR (Finite Impulse Response) de orden N cuya ecuación de diferencias está dada por,
1 k N n k n k k
y
b x
= − ==∑
( 3 . 1 )Para diseñarlo se utilizó el método de Muestreo de frecuencia mediante el algoritmo Parks-McClellan [3]. Este algoritmo utiliza el algoritmo de intercambio de Remez y la teoría de aproximación de Chebyshev para diseñar filtros con un óptimo ajuste entre la respuesta en frecuencia deseada y la respuesta real obtenida. Estos filtros son óptimos en el sentido que el máximo error entre la respuesta en frecuencia deseada y la frecuencia real obtenida es minimizado. Los filtros diseñados de esta manera muestran una conducta equiripple en su frecuencia es por eso que a veces son llamados filtros equiripple.
El método de Muestreo de frecuencia se basa en reconstruir el espectro
continuo
X F( )
de una señal discreta a partir de los muestreos de la función( )
X F
. El espectro reconstruidoX
N( )F
será igualX F( )
sólo en lasfrecuencias de muestreo.
Si consideramos la DFT de la señal
h
N[ ]n
de longitud N como Nmuestreos de su
DTFT H F(
( ))
en k,
0,1,...,
1
NF
=
k
=
N−
, entonces [4],[ ]
[ ]
[ ]
[ ]
1 1 0 0 2 ( 2 )N N N N N k j nk N j nF
H
n
h
n e
dF
H
k
h
n e
π π − ⎛⎜⎝ ⎞⎟⎠ = −=∫
=∑
( 3 . 2 )La respuesta a impulso
h
N[ ]n
se calcula con la IDFT,
[ ]
[ ]
1 0 21
N N N k j nk Nh
n
H
k e
N
π ⎛ ⎞ − ⎜ ⎟ ⎝ ⎠ ==
∑
(3.3)Los muestreos deben hacerse en un periodo (0,1) correspondiente a la frecuencia de Nyquist. Debido a que estos filtros son de fase lineal cada uno
de los muestreos tiene una fase dada por
φ( )k
= −πk N(
−1 /)
N k,
=1,...,N.
P r o c e d i m i e n t o d e d i s e ñ o .
1.- Establecer el orden del filtro. Debido a que la elección del orden del filtro es un compromiso entre tiempo de computación y pendiente de la zona de transición es que se estableció un orden de N=50, debido a que este era el mínimo orden que cumplía con los dos compromisos antes descritos.
2.- Establecer las especificaciones en frecuencia. Como tracto vocal manifiesta un número muy grande de resonancias, sin embargo se considera solo las tres o cuatro primeras y ellas están localizadas entre el intervalo de frecuencias de 100 a 3.5 KHz, es que se eligió un frecuencia de corte a bajas
de 4.5 KHz. En cuanto al rizo en la banda de rechazo se propone a un valor de -60dB
3.2.3.2.
P
RE-
ÉNFASIS,
NORMALIZACIÓN Y ELIMINACIÓN DE LACOMPONENTE DE
CD
EN LA SEÑAL DE VOZ.
P r e - é n f a s i s
La finalidad de este sub-bloque es alinear espectralmente la señal y hacerla menos susceptible de los procesos que posteriormente serán ejecutados sobre la señal de voz. El diagrama del filtro implementado es mismo que fue mostrado en la Figura 2.4 del capítulo 2.
N o r ma l iz a c i ó n .
La señal digitalizada es normalizada para reajustar su amplitud y de esta manera hacer homogéneas las muestras capturadas para después obtener sus características.
E l i m i n a c i ó n d e l a c o m p o n e n t e d e C D e n l a s e ñ a l d e v o z .
La eliminación de la componente de CD es necesaria ya que si este valor es grande, dominará el estimado del espectro de la señal de voz. Por lo que resulta conveniente substraer esta componente antes de estimar el espectro.
3.2.3.3.
D
ETECTOR DE ACTIVACIÓN DE VOZ.
La tarea de clasificación de segmentos de voz y segmentos de silencio, no es tan trivial como inicialmente podría parecer y la mayor parte de los algoritmos para VAD fallan cuando el nivel de ruido de fondo se incrementa, debido a esto es necesario implementar VAD robustos como el propuesto basado en características de la entropía del espectro.
3.2.3.3.1
E
NTROPÍA DE UNA SEÑAL.
Los conceptos de información y entropía están ampliamente relacionados a través de la teoría establecida por Shannon en 1948 [5], ella nos dice que una fuente sin memoria emite una secuencia de símbolos tomados de un alfabeto finito (pasos del cuantizador), seleccionándolos de acuerdo a una ley de probabilidades fija, en forma estadísticamente independiente como se muestra en la siguiente figura.
F i g u r a 3 . 3 . E j e m p l o d e u n a f u e n t e s i n m e m o r i a , e n l a t e o r í a d e l a i n f o r m a c i ó n .
Una fuente sin memoria queda descrita por el alfabeto fuente S y el conjunto de probabilidades con las cuales ocurre cada uno de los símbolos es,
La información promedio que proporciona la fuente sin memoria esta dada por,
( )
( )1
log
i iI s
P s
=
(3.5)Dado que la probabilidad de que ocurra
s
i esP s( )
i , entonces lacantidad de información promedio que se obtiene con cada símbolo que se recibe de la fuente sin memoria está dado por,
( ) ( )
i i sP s I s
∑
(3.6)
La incertidumbre promedio que tiene un observador, antes de que tenga oportunidad de verificar la salida de la fuente sin memoria es definida como [5],
( )
( ) ( )
( )
( )1
log
i i i i s sH s
P s I s
P s
P s
=∑
=∑
(3.7)
A esta cantidad se le conoce como la entropía
H s( )
de la fuente sinmemoria, y es la cantidad de información promedio por símbolo que proporciona la fuente sin memoria. Si en una fuente sin memoria los valores posibles eventos de salida son equiprobables tiene un valor máximo de entropía. En cualquier otro caso de distribución probabilística la fuente será mas redundante, su comportamiento más predecible o menos caótico, y el valor de entropía tenderá a disminuir.
3.2.3.3.2
A
PLICACIÓN DE LA ENTROPÍA PARA IMPLEMENTAR(VAD)
ROBUSTOS.
Los VAD basados en la energía proporcionan buen rendimiento cuando la energía de la voz es significativamente mayor que la energía del ruido de fondo [6]. Cuando la SNR es muy baja, la energía del ruido de fondo es similar a la de la voz, la detección usando el criterio de energía produce pobres resultados. Sin embargo, la observación de espectrogramas de señales con mucho ruido muestra que las regiones de voz son más “organizadas” que las regiones con ruido. Por lo que la entropía es una manera de medir estas regiones. Como se explico anteriormente, la entropía es máxima cuando todos los símbolos son equiproblables, y mínima cualquier otro caso de distribución probabilística.
La aplicación del concepto de entropía para la detección de voz está basada en la suposición que el espectro de la señal es mas organizado durante segmentos de voz que durante segmentos de silencio. La medición de la entropía es definida en el dominio del espectro de energía como [6],
(
( )
2)
(
( )
2)
(
(
( )
2))
1,
,
log
,
H Y
t
P Y
t
P Y
t
ωω
Ωω
ω
== −∑
( 3 . 8 )
donde