5.2 Method
5.2.2 Reclassification of land cover classes
La penalidad por inserción de palabras es un valor fijo que se agrega a cada token cuando éste va del final de una palabra al inicio de otra. El factor de escala de la gramática es el monto por el cual el modelo de probabilidad del lenguaje es escalado antes de ser agregado a cada token cuando este va del final de una palabra hacia el inicio de la siguiente palabra en la red sintáctica ligada.
5.2.
Hipótesis
La hipótesis planteada fue la siguiente:
Utilizando técnicas de extracción de características de señales de habla asociadas a técnicas de clasificación de patrones, es posible recuperar la información contenida en archivos de audio con grabaciones de textos hablados de una persona en particular
5.3.
Tipo de Investigación
Se aplicó el modelo experimental, pues el presente trabajo tiene características fundamentales de dicho modelo.
5.4.
Universo y Muestra
El población está definido por todas las posibles sentencias que pertenecen al lenguaje libre del contexto generado por una gramática libre del contexto definida enA.7.
Las muestras fueron elegidas de manera aleatoria [BE01], en la cual todas las sentencias pertenecientes al universo tenían la misma probabilidad de ser elegidos La muestra está conformada por 200 graba- ciones, cada una de las cuales contienen una sentencia con el texto hablado generado aleatoriamente por la gramática libre del contexto definida en A.7. Cada sentencia contiene en promedio 15 pal- abras, esto hace un total de 4000 palabras contenidas en el total de grabaciones.
Las grabaciones fueron realizadas del habla de una persona del sexo masculino de 30 años de edad, hablante de la lengua castellana.
5.5.
Instrumentos
Para la recolección datos se usó:
Un micrófono marca Shure modelo C606 semiprofesional
Una computadora portátil marca Hp Pavilion dv2700 centrino, procesador Intel(R) Core(TM)2 Duo CPU T5850 @ 2.16GHz, 2167 Mhz, 2 procesadores, 2.00 GB de RAM
Para la experimentación se implementó o usó el siguiente software. - Lorito [GD07], software necesario para procesar y analizar la señal.
- Extractor MFCC, software para extraer las características MFCC de los archivos de audio. - LectorAudio, software para leer archivos de audio de memoria externa, llevarlas a memoria
RAM y transformar los valores a una estructura de dato tipo arreglo. - Archivos de configuración Diversos programas en perl de configuración. - HTK HMM toolkit.
5.6.
Procedimiento
Fue utilizado el método científico, a continuación se describe la secuencia de la presente inves- tigación.
1. Revisión bibliográfica. 2. Delimitación del problema.
3. Elaboración de la realidad problemática. 4. Formulación de la hipótesis.
5. Elaboración del software para experimentación. 6. Recolección de datos.
7. Experimentación.
8. Documentación del informe.
5.7.
Métodos y Procedimientos para la Recolección de Datos
La recolección de datos fue realizada de la siguiente manera: Se generaron 200 sentencias aleato- rias en formato texto a partir de una gramática libre del contexto. Luego se solicitó a una persona de sexo masculino a leer de manera continua cada una de las sentencias. Cada sentencia fue graba- da utilizando los instrumentos descritos en 5.5. Posteriormente para cada sentencia se generó un archivo en formato WAV. El nivel del ruido fue moderado.
5.8.
Análisis Estadístico de los Datos
Se evaluó experimentalmente el algoritmo usando validación cruzada k-fold [DHS01], usando como medida de error la medida word error rate-WER (Sección 4.4) que es una técnica utilizada de manera común en el reconocimiento automático del habla. Los detalles de esta evaluación ex- perimental se encuentran detallados en la Sección 7.3.
Fue utilizada la prueba de t-student con un nivel de significancia de α = 0,05 pues no se conoce la media ni la varianza de la población pero se tiene información del error medio y la varianza obtenido por el algoritmo propuesto en las muestras [BE01]. Los detalles de la prueba se encuentran descritos en la Sección 7.4.
realizada por una persona en particular.
Este capítulo describe el algoritmo propuesto para recuperar información en textos hablados dependientes del hablante donde cada texto es generado de manera aleatoria por una gramática libre del contexto usando los conceptos vistos en el Marco Teórico. Se tomará como ejemplo una base de datos de archivos de audio de habla que contiene sentencias generadas por una gramática, en este caso sentencias con algunos nombres y números.
En la Sección 6.1 se describen los pasos del algoritmo de manera general. La Sección 6.2 se describe la preparación de los datos. La Sección 6.3 describe la construcción de los HMM. La Sección6.4describe la creación de los fonema dependientes del contexto. La Sección6.5describe el proceso de decodificación con el algoritmo Token Passing. La Sección6.6describe de manera formal el algoritmo propuesto.
6.1.
Descripción del algoritmo
A continuación se describen de manera general los pasos del algoritmo y su relación con el fundamento teórico descrito anteriormente. El algoritmo propuesto consta de 4 partes principales: Preparación de los datos, construcción de los HMM, creación de fonemas dependientes del contexto y la decodificación.
Descripción General del Algoritmo-de-recuperación-de-informacion-en-textos-hablados Preparación de los datos
1 Diseño de la gramática de trabajo (Teoría en las Secciones4.6,4.6.1,4.6.2) 2 Construcción del diccionario de pronunciación (Teoría en las Secciones4.6.3) 3 Obtención de los datos (Teoría en Sección2.1)
4 Construcción de los archivos de transcripción (Teoría en Sección4.6.3)
5 Extracción de características usando MFCC (Teoría en las Secciones2,3,4.2) Construcción de los HMM
6 Definición de la estructura del HMM (Teoría en las Secciones4.3.4,4.3.5,4.3.6) 7 Estimación de los parámetros iniciales del HMM
8 Entrenamiento de los HMM (Teoría en Sección4.3.3)
9 Establecer HMM para silencio y pausa (Teoría en Sección4.3.3) Creación de fonemas dependientes del contexto
10 Creación de los trifonemas (Teoría en Sección4.7.1) 11 Clustering de estados (Teoría Sección4.7.2)
Decodificación
12 Algoritmo Token-passing (Teoría Sección4.8)
A continuación se describe cada parte de manera detallada, luego se describirá formalmente el algoritmo.