• No results found

CHAPTER 3: RESEARCH METHODOLOGY

3.5 Case Study Questions

La Recomendación UIT-T G.722.2 aprobada el 29 de julio de 2003, estandariza el códec AMR-WB, describe un codificador y decodificador de banda ancha multirate adaptativa (AMR-WB) de alta calidad destinado principalmente a las señales vocales de 7 kHz de anchura de banda. El AMR-WB funciona a numerosas velocidades binarias, que van de 6,6 kbit/s a 23,85 kbit/s. La velocidad binaria puede cambiarse en cualquier frontera de trama de 20 ms [29].

El códec AMR-WB se basa en la tecnología Algebraic Code Excited Linear Prediction (ACELP). La tecnología ACELP ha sido muy exitosa en la codificación de señales de voz de banda telefónica y varios estándares basados en ACELP se están desplegando en una amplia gama de aplicaciones, incluyendo aplicaciones celulares digitales y VoIP [30].

AMR-WB incluye un conjunto de modos de codificación de voz y de canales de frecuencia fija, un detector de actividad de voz (VAD), funcionalidad de transmisión discontinua (DTX) en GSM y funcionalidad de frecuencia controlada de fuente (SCR) en 3G, señalización en

banda para códec Modo de transmisión y adaptación de enlace para controlar la selección de modo. El códec AMR-WB adapta la asignación de velocidad de bits entre la codificación de voz y de canal, optimizando la calidad del habla a las condiciones de canal de radio predominantes. Al mismo tiempo que proporciona una calidad de voz superior a los estándares de banda estrecha existentes, AMR-WB también es muy robusto contra los errores de transmisión debido al funcionamiento y la adaptación multirate. La adaptación se basa en principios similares a los del códec AMR (también conocido como el códec AMR de banda estrecha, AMR-NB) normalizado previamente para los sistemas GSM y WCDMA 3G [30].

AMR-WB tiene variedad de velocidades binarias entre 6.6 y 23.85 kb/s. Para los canales GSM, esto hace posible maximizar la calidad del habla adaptando la velocidad de bits del códec para aumentar la robustez frente a errores de transmisión. Para los canales 3G UTRAN no adaptativos que utilizan un control de potencia rápido, los operadores pueden seleccionar las velocidades de bits adecuadas para establecer un equilibrio óptimo entre la calidad de voz y la capacidad de red [30].

La adopción de AMR-WB por la UIT-T es de importancia significativa ya que por primera vez se adopta el mismo códec para los servicios inalámbricos y de cable. Esto elimina la necesidad de transcodificar y facilita la implementación de aplicaciones y servicios de voz de banda ancha en una amplia gama de sistemas y plataformas de comunicación [30].

La técnica modelada en este proyecto puede ser utilizada adoptando cualquier códec, ya que se implementa en el canal para disminuir las perdidas, pero en esta investigación se realizan los experimentos bajo la influencia del códec AMR-WB, para hacer la simulación lo más real posible, teniendo en cuenta además que el códec AMR-WB ha sido estandarizado como el códec predeterminado para el tipo de "discurso" medio a la frecuencia de muestreo de 16 kHz para conmutación de paquetes Streaming Service (PSS) y el Servicio de Mensajería Multimedia (MMS).

2.1.1 Características de los perfiles de audio (entrada del codificador / salida del decodificador)

Los archivos de voz leídos por el codificador y escritas por el decodificador consisten en palabras de 16 bits, donde cada palabra contiene una muestra de voz alineada a la izquierda de 14 bits. El orden de bytes depende de la arquitectura huésped (por ejemplo, MSByte

primero en estaciones de trabajo SUN, LSByte primero en PCs, etc.). Tanto el programa codificador como el decodificador procesan tramas de 320 muestras [29].

2.1.2 Formato de los ficheros

Los ficheros de la secuencia de prueba en el PC, con los octetos según el modo Little-endian en el que el primer octeto es el menos significativo, se dan en los ficheros de archivo (formato ZIP) brindados por la UIT Recomendación G.722.2 – Anexo D [31].

Tras la descompresión, se proporcionan tres tipos de fichero:

 Ficheros para la entrada al codificador de voz: *.INP

 Ficheros para la comparación con la salida del codificador y la entrada al decodificador de voz: *.COD

 Ficheros para la comparación con la salida del decodificador *.OUT

Cada fichero *.INP incluye dos tramas de retorno a la posición inicial al comienzo de la secuencia de prueba. La función de esas tramas es reponer las variables de estado del codificador de voz en su valor inicial. Todas las tramas de salida del codificador de voz serán idénticas a la trama correspondiente del fichero *.COD. La primera trama de salida del codificador de voz está indefinida y no es preciso que sea idéntica a la primera trama del fichero *.COD, pero todas las tramas restantes de salida del codificador de voz serán idénticas a las tramas correspondientes del fichero *.COD. La función de las dos tramas de retorno a la posición inicial de los ficheros *.COD es reponer las variables de estado del decodificador de voz en su valor inicial. Todas las tramas de salida del decodificador de voz serán idénticas a la trama correspondiente del fichero *.OUT. La primera trama de salida del decodificador de voz está indefinida y no es preciso que sea idéntica a la primera trama del fichero *.OUT, pero todas las tramas restantes de salida del decodificador de voz serán idénticas a las tramas correspondientes del fichero *.OUT [31].

2.1.3 Muestras de audio seleccionadas para el experimento

De la Recomendación G.722.2 – Anexo D [31] en la cual se brindan veintitrés secuencias de prueba de entrada al codificador, donde los niveles de habla activa se dan en dBov, se toman 7 muestras para la realización del experimento que se realiza en este proyecto.

1. T02.INP – Barrido cuadrado que varía de 50 Hz a 7000 Hz. Amplitudes: ± 32767.

2. T04.INP – Voz femenina, ruido ambiente, nivel de habla activa: –22,5 dBov, filtrado P.341.

3. T05.INP – Voz masculina, ruido ambiente, nivel de habla activa: –29,9 dBov, filtrado P.341.

4. T06.INP – Voces femenina y masculina, ruido ambiente, nivel de habla activa: –36,1 dBov, filtrado P.341.

5. T08.INP – Voces femenina y masculina, ruido ambiente, nivel de habla activa: –7,7 dBov, filtrado P.341.

6. T09.INP – Voces femenina y masculina, ruido ambiente, nivel de habla activa: –37,4 dBov, filtrado P.341.

7. T19.INP – Voz infantil, ruido ambiente, nivel de habla activa: –34,7 dBov, filtrado P.341.

Se escogieron las 7 muestras anteriores por presentar variaciones tanto en el sexo del hablante como la presencia o no de ruido ambiente, los niveles de habla activa y el filtrado para obtener resultados basados en disímiles situaciones.

2.1.4 Software para codificación y decodificación de las muestras de audio.

Para la codificación y decodificación de las secuencias de prueba digital se utilizan los softwares coder.exe y decoder.exe disponibles en el Anexo C de la Recomendación G722.2 de la UIT [32].

El códec de audio de banda ancha AMR-WB es implementado en dos programas llamados

códec.exe (para la codificación de la voz) y decoder.exe (para la decodificación). Los

archivos de voz contienen muestras de lineales codificada de voz PCM de 16 bits y los archivos de parámetros contienen datos de voz codificados y algunas banderas adicionales [29].

El software coder.exe se invoca mediante la línea de comando de la Expresión 2.1:

donde; –dtx permite habilitar la función de transmisión discontinua, modo permite definir una de las nueve razones de transmisión del códec de audio, speech_file es la muestra de referencia u original, bitstream_file se coloca el nombre con que se quiere almacenar el archivo codificado (Ver Figura 2.1) que es un fichero del tipo *.COD

Figura 2.1: Opciones de configuración del software coder.exe

Para usar el decoder.exe se invoca con la línea de comando de la Expresión 2.2:

decoder <-itu : -mime> bitstream_file synth_file (2.2)

Las opciones -itu y –mime son para dar formato y se usan indistintamente, en bitstream_file se pone el archivo que salió del codificador (fichero *.COD) y synth_file se pone el nombre que se desea que tenga el fichero *.OUT que saldrá del decodificador como se puede observar en la Figura 2.2.