C
APÍTULO 2: REVISIÓN y OBJETIVOS
2.1.- INTRODUCCIÓN
En este capítulo se hace una presentación de documentación existente sobre aspectos relevantes en Tesis que se presenta. Como conclusión se exponen las líneas del trabajo que se realiza en esta Tesis, indicando los objetivos y los aspectos claves de los métodos.
2.2.- REVISIÓN SOBRE HERRAMIENTAS PARA ANÁLISIS DE
SEÑALES MUSICALES
2.2.1.- TRANSFORMADA ESPECTRAL DE Q CONSTANTE
Este método usa una transformada cuyo resultado equivale al uso de un banco de filtros de hasta 1/24 de octava [Brown 91].
2.2.2.- REPRESENTACIÓN TIEMPO-FRECUENCIA DE ALTA RESOLUCIÓN USANDO DISTRIBUCIÓN MODAL.
Partiendo de la idea de la distribución Wigner se obtiene una mejora del análisis de transitorios frente a métodos con ventanas como transformadas de Fourier o transformadas de Q constante [Pielemeier 96].
CAPÍTULO 2: REVISIÓN Y OBJETIVOS
2.2.3.- “GENERALIZED HARMONIC ANALYSIS (GHA)”
Es un análsis tiempo-frecuencia. Resulta útil para señales no estacionarias. Presenta mayor resolución espectral que transformada de Fourier con tramos cortos de señal, evitando el efecto del enventanado.[Terada 1994]
2.2.4.- “REASSIGNED SPECTROGRAMS”
Realiza una extracción de características que permite clasificar los espectros como : sinusoide, transitorio o ruido. De esta manera facilita la búsqueda de parciales. [Hainsworth 2001].
2.2.5.- TRANSFORMADA ONDICULAR (WAVELET)
En la línea de transformadas de Q constante pero con más libertad de elegir la transformación mediante la selección de la ondícula madre. La representación es tipo tiempo-frecuencia pero con la salvedad de que la frecuencia viene representada indirectamente por el término “escala”. Se han realizado aplicaciones en esta tesis para analizar sonidos de piano, diseñando una ondícula madre a partir de un tramo de nota de piano. [Ortiz 00] [Ortiz 01]
2.2.6.- TRANSFORMADA DE FOURIER
Es el método por defecto. Sus inconvenientes pueden ser despreciados si los tramos a analizar son suficientemente largos para que la resolución espectral sea suficiente y la ventana es adecuada a la aplicación que se busca. Si se requiere representación tiempo- frecuencia se recurre a la implementación de STFT
2.3.- REVISIÓN SOBRE CLASIFICACIÓN DE SONIDOS E
INSTRUMENTOS MUSICALES
2.3.1.- RECONOCIMIENTO Y CLASIFICACIÓN DE LOS TIPOS DE MÚSICA
Se ha presentado un trabajo [Lambrau 98] usando para identificar tipos de música (rock, jazz,..) usando transformada ondicular y una posterior extracción de características estadísticas para realizar una clasificación usando reconocimiento de patrones de dichas características
CAPÍTULO 2: REVISIÓN Y OBJETIVOS
obtenidas en entrenamiento previo.
2.3.2.- RECONOCIMIENTO Y CLASIFICACIÓN DE INSTRUMENTOS MUSICALES
El uso de coeficientes cepstrales para reconocimiento de instrumentos de viento-madera ha sido presentado en varios trabajos [Brown 98][Brown 99] [Brown 01] incrementando cada uno el número de instrumentos incluidos en el reconocimiento hasta llegar a incluir saxofón, oboe, clarinete y flauta.
Una sofisticación en el reconocimiento de instrumentos es la identificación de entre varios instrumentos distintos del mismo tipo. Así, en el caso del piano se han analizado diversos métodos para identificar un piano respecto a otro. El entrenamiento establece patrones de cada piano para su posterior reconocimiento. Se han realizado pruebas usando transformaciones tiempo-frecuencia (STFT, wavelet, wavelet packet,...) [Delfs 97] y también extrayendo características del ataque [Delfs 98].
La generalización del reconocimiento a cualquier instrumento supone un incremento de posibilidades que sugiere el uso de un método jerarquizado. Se ha propuesto una metodología de tres niveles [Martin 98]
Nivel 1: Identificar si es un instrumento tocado en pizzicato o en sostenido Nivel 2: Identificar la familia
Nivel 3: Identificar el instrumento
No se incluye el intento de reconocer entre dos instrumentos iguales.
El uso de coeficientes cepstrales y características temporales tratados estadísticamente se ha usado en un trabajo [Eronen 00] que ha entrenado e identificado 30 instrumentos distintos incluso con distintos estilos de excitación. El resultado ha sido ampliado incluyendo predicción lineal y coeficientes cepstrales mel-frecuencia [Eronen 01].
CAPÍTULO 2: REVISIÓN Y OBJETIVOS
2.4.- REVISIÓN SOBRE DETECCIÓN DEL PITCH Y DEL
FUNDAMENTAL
Este es un problema ampliamente trabajado y resuelto con mayor o menor éxito dependiendo del instrumento, siendo el piano el más complicado.
Los métodos más tradicionales son el uso de la autocorrelación [Rabiner 77] y el uso de cepstrum [Noll 67].
El uso de análisis tiempo-frecuencia con transformadas enventanadas combinadas se ha presentado [Klapuri 99 ] como método con suficiente precisión en las octavas 3 y siguientes, mientras que presentan evidente limitaciones en octavas bajas al depender de la longitud de las ventanas. Para la identificación del pitch, y de la nota en definitiva, se afirma que es suficiente detectar la frecuencia del fundamental con un error inferior a un semitono.
Los métodos tradicionales de autocorrelación y cepstrum se han comparado con el uso de Espectro Generalizado [Black 00] usando ventanas de sólo50ms con overlap de 50%, para sonidos de tuba, flauta, violín y piano consistentes en una nota repetida durante 5 segundos (sólo las notas C2,C3 y C4) y los resultados no han sido mejores para el espectro generalizado que para los tradicionales
También se ha usado la autocorrelación como parte de algoritmos de detección monofónica más sofisticados [Monti 00]
2.5.- REVISIÓN SOBRE DETECCIÓN POLIFÓNICA
El uso de métodos de identificación de pitch usados iterativamente para detectar 2 notas simultáneas [Klapuri 98] [Klapuri 99] exige realizar una sustracción espectral de la primera nota detectada antes de realizar la detección de la otra nota.
Otros métodos no usan la identificación iterativa pues ésta presenta problemas cuando la sustracción espectral no es buena y permanecen parciales altos de las notas ya detectadas, que
CAPÍTULO 2: REVISIÓN Y OBJETIVOS
a su vez parecen nuevas notas a ser detectadas.
La discriminación de parciales de más de una nota simultánea, cuya separación es inferior a la que existe entre parciales de una misma nota o que incluso llegan a coincidir, es una de las tareas a las que más esfuerzo se ha dedicado. Así, se han probado métodos como:
-La interpolación espectral para aumentar la resolución de una FFT [Mcleod 98]
-La detección de parciales cuyo orden es número primo para poder discriminar entre notas relacionadas armónicamente [Klapuri 98],
-Transformada de Fourier Multiresolución que calcula varias representaciones tiempo- frecuencia de la señal mediante transformada de Fourier (STFT) con longitud de ventana variable [Keren 98]. El análisis conjunto de las diversas transformadas a distintas resoluciones permite obtener conclusiones.
-El modelo sinusoidal multiescala [Fernández-Cid ] realiza una labor parecida pero las diversas transformadas de Fourier se calculan sobre las salidas de un banco de filtros que realiza una transformada ondicular (“wavelet”) de 4 escalas. Una vez más, la discriminación de parciales y sus notas exige un análisis posterior de dichas medidas.
El tratamiento estadístico del problema tiene una referencia en el uso del modelo de sinusoides armónicas con análisis Bayesiano y estimación de parámetros mediante MCMC (“Markov Chain Monte Carlo”) [Walmsley 99]. Partiendo de la afirmación de que los métodos con coeficientes cepstrales no son útiles para polifonía y considerando que las frecuencias útiles para definir la nota existen a lo largo de mucho tiempo (no desaparecen pronto ni aparecen de repente, no son transitorias sino estacionarias), se propone analizar su comportamiento estadístico a lo largo de muchos “frames” de análisis tiempo-frecuencia. Dicho análisis puede hacerse con probabilidades condicionadas a apariciones en frames anteriores mediante método bayesiano. Las búsquedas del método persiguen obtener conclusiones según un orden, primero determinar el número de notas que suenan, luego el número de armónicos de cada nota. Su ventaja es que se puede intentar aplicar a cualquier instrumento.
En la línea de planteamientos de gran complejidad computacional y de sistemas inteligentes, se han descrito:
CAPÍTULO 2: REVISIÓN Y OBJETIVOS
-Análisis tiempo-frecuencia adaptativo para alta resolución. Cada valor asociado a un par de las variables tiempo-frecuencia se obtiene mediante un filtro que maximiza una medida de concentración de energía local tipo Kurtosis [Jones 90]. Este método presenta graves problemas computacionales.
-Siguiendo con la idea anterior de adaptar filtros del análisis tiempo-frecuencia, se puede recurrir a técnicas de inteligencia artifical tipo IPUS(“Integrated Processing and Understanding of Signal” [Lesser 95]) para aplicar el conocimiento sobre sonidos musicales al ajuste de los filtros. Se ha presentado un método con filtros gausianos de Q constante aplicado a sonidos de 2 notas [Mani 98].
2.6.- REVISIÓN SOBRE DETECCIÓN POLIFÓNICA ESPECÍFICA DE
PIANO
El problema de identificación polifónica en pianos no sólo reside en el método de análisis de la señal sino también en el proceso de decisión a partir de dichas medidas. Tener buenas representaciones tiempo-frecuencia no es suficiente para realizar una buena detección de las notas del sonido polifónico (por ejemplo, acorde)
La detección de notas y polifonía en piano haciendo uso de un método de identificación respecto a bases de datos espectrales ha sido probada [Rossi 97], si bien la base de datos usada requería el análisis previo de todas las notas del piano en concreto, por lo que se pierde toda generalidad. Del análisis tiempo-frecuencia mediante transformada de Fourier (STFT) de todas las notas se extraen los valores de las frecuencias de los parciales, lo que constituye la base de datos. En la identificación, se calcula la STFT de la señal y se extraen los valores de frecuencia de los máximos locales. Dichos valores son los que se comparan con la base de datos. Este tipo de extracción de datos espectrales en función simplemente de máximos presenta serios errores para notas de piano de octavas altas, como se explicará más adelante. Además, los datos de la base no pueden considerarse suficientes para establecer un patrón espectral.
Estudios que persiguen la detección polifónica específica de piano y hacen uso de técnicas de inteligencia artificial y redes neuronales son:
CAPÍTULO 2: REVISIÓN Y OBJETIVOS
-El uso de multiagentes para implementar un mecanismo de percepción para el reconocimiento de las notas [Privosnik 98]. Se aplica sobre los datos obtenidos en un análisis tiempo-frecuencia previo. El estudio presentado no usaba un buen análisis tiempo- frecuencia y propone mejorarlo mediante uso de transformada ondicular. Sólo presentaba éxito con algunas notas del piano.
-Las redes neuronales se proponen en un trabajo [Marolt 00] con un método más complicado de análisis espectral. Primero se realiza un análisis tiempo-frecuencia con un modelo auditivo (modelo cloquear) que incluye filtrado multibanda. Las salidas de los filtros atacan a unos osciladores adaptativos que emulan una señal lo más parecida pero sólo con sinusoides. Esta fase es denominada “partial tracking”. Se usan 88 osciladores cada uno delos cuales ataca a un circuito neuronal que es el que realiza el reconocimiento en base a unos patrones desarrollados por él mismo durante la fase de entrenamiento.
Las bondades de este método son un 99% de aciertos en acordes de notas de octavas altas y un 96% en acordes de notas graves. Los inconvenientes son: persisten los errores por confusión entre octavas (notas separadas un número entero de octavas), se han requerido 400000 acordes para el entrenamiento, los osciladores adaptativos están ajustados a la frecuencia teórica de las notas del piano ( es decir, no consideran la afinación tan específica del piano que llega a suponer variaciones de hasta 40 cents en algunas notas) y que los osciladores incluyen una serie de subosciladores que implementan los parciales que están ajustados a frecuencias armónicas (es decir, no se tiene en cuenta la marcada inarmonicidad de las notas del piano). Otro gran inconveniente es que el trabajo reconoce que para el entrenamiento y los reconocimientos ha usado sonidos sampleados tomados de un CD y que los acordes no estaban sampleados sino que los han compuesto sintéticamente a partir de las notas sampleadas. En resumen, no se han hecho pruebas del sistema con sonidos directos de un piano ni con acordes ejecutados como tales por un pianista.
CAPÍTULO 2: REVISIÓN Y OBJETIVOS
2.7.- REVISIÓN SOBRE MODELADO
El uso de modelos para generar patrones de diversos tipos para comparar con el sonido a analizar y determinar las notas existentes es otra línea de solucionar el problema. Bien es cierto que muchos de los modelos son presentados como modelos para síntesis de sonidos de un cierto instrumento.
Sobre modelado de instrumentos de viento pueden resaltarse los trabajos sobre simulación de la producción de sonido en el dominio temporal de los instrumentos de viento-metal (excitados por la vibración de los labios) [Adachi 95] y el modelado de flauta [Ystad 00].
El modelado del piano ha tenido menos resultados debido a su gran complejidad. Existen varios trabajos que describen el comportamiento físico y acústico del piano y de los que se pueden sacar elementos para desarrollar un modelo. De ellos se irá dando cuenta a lo largo de la explicación del modelo diseñado en esta Tesis. Trabajos que se refieran al uso de modelos para síntesis (aplicables a generación de patrones) y para reconocimiento de piano son:
-Modelado tipo excitación múltiple y filtrado [Laroche 94]. No consigue buenos resultados para piano ni siquiera considerando la existencia de sonidos tipo percusivos. -Modelado tipo excitación y filtrado pero con la técnica de “conmutación” que permite intercambiar la posición de excitadores y filtros del sistema resonante de modo que se pueden tener excitaciones previamente filtradas formando una tabla de ondas [Smith 95]. La limitación es que al tener el martillo real un comportamiento no lineal, la conmutación no puede realizarse tan “transparentemente”. El trabajo presentado indica la realización de síntesis polifónica de hasta 2 notas.
El modelado espectral tampoco ha tenido mucha atención:
-Modelado del espectro de piano mediante pulsos con la forma de la función de distribución de Cauchy [Chong 99].
Existen trabajos que desarrollan modelos parciales, referidos a ciertos detalles del piano, a los que se irá haciendo referencia a lo largo de esta Tesis
CAPÍTULO 2: REVISIÓN Y OBJETIVOS
2.8.- RESULTADOS PRESENTADOS EN LOS TRABAJOS REVISADOS
De los trabajos revisados, ninguno ha presentado resultados para el margen completo de notas del piano ni para un amplio rango de acordes. Ninguno presenta pruebas con acordes de 4 notas y apenas unos pocos usan acordes de tres notas. La discriminación de tan sólo dos notas parece ser un problema suficientemente complejo para la mayoría de los métodos presentados.
Por otro lado muy pocos trabajos con pruebas sobre sonidos de piano se han realizado con sonidos de pianos grabados directamente por los investigadores. En muchos casos se ha recurrido a archivos de muestras de notas sueltas. No queda claro si dichos archivos han sido previamente limpiados, en base a decisión humana, de elementos que acompañan a sonidos reales y que pueden suponer una fuente de confusión para los sistemas de reconocimiento automáticos “on-line”. En algunos casos se reconoce incluso que los acordes no fueron ejecutados como tales sino sintetizados mezclando varias notas sueltas.
Algunos métodos requieren entrenamiento excesivo (redes neuronales y otros de inteligencia artifical), otros requieren de un entrenamiento razonable y algunos aparentemente no requieren de entrenamiento, pero implementan en la etapa de decisión conocimientos previos, sobre los sonidos musicales, desarrollados o conocidos por quien elabora el método.
Los únicos trabajos que han indicado claramente que usen diversos pianos para las pruebas son los trabajos que intentan identificar un piano frente a otro, pero sin identificar notas ni acordes. Los pianos muestran suficientes diferencias entre ellos que afectan a la distribución espectral de los parciales de las notas, entre ellas las más notables: afinación y curvas de longitud y radio de las cuerdas que afectan a la inarmonicidad.
CAPÍTULO 2: REVISIÓN Y OBJETIVOS
2.9.- TRABAJO A REALIZAR EN ESTA TESIS
2.9.1.- OBJETIVO GENERAL
Se va a desarrollar un sistema de identificación de acordes de 3 y 4 notas aplicado principalmente al piano, basado en un sistema de reconocimiento de patrones generados por un modelo.
2.9.2.- PLANTEAMIENTO DEL MÉTODO
A continuación se describe el método que se propone usar para conseguir el objetivo general.
2.9.2.1.- Patrones y Entrenamiento
Los patrones para identificar las notas y acordes, son generados por el propio sistema durante una etapa de entrenamiento. Los patrones consisten en espectros de las notas con varios parciales centrados en las frecuencias adecuadas y con los anchos adecuados. Dado que la bondad del método depende del número de notas entrenadas, se ha intentado llegar a un compromiso pues no resulta razonable plantear que el entrenamiento exija el uso de todas las notas.
Los patrones no se generarán simplemente a partir de los datos medidos durante el entrenamiento, sino que dichos datos serán procesados mediante la aplicación de un modelo que tendrá en cuenta aspectos físicos, acústicos y de diseño de pianos. De esta manera se podrá obtener una extrapolación de los datos de unas pocas notas usadas en el entrenamiento, para generar fiablemente los patrones de las 88 notas del piano.
La validez del proceso de entrenamiento podrá verificarse, opcionalmente, con la identificación de notas sueltas, antes de proceder a la identificación de acordes. Así, el método sirve para identificar tanto acordes (polifonía) como notas sueltas (monofonía)
El entrenamiento asegura la validez del método de identificación para pianos distintos. Se estudiará el uso de un modelo único para intentar identificar acordes de varios pianos y se comprobará si el entrenamiento es necesario.
CAPÍTULO 2: REVISIÓN Y OBJETIVOS
2.9.2.2.- Identificación de Acordes
La identificación de acordes se realizará mediante una identificación iterativa de las diversas notas que lo componen, realizando una sustracción espectral de cada nota identificada.
La sustracción espectral se realizará en base a una máscara calculada de forma análoga al patrón correspondiente a la nota identificada. Esto puede dejar restos de parciales en la señal, pues tanto las máscaras como los patrones usados para reconocer, tienen un número de parciales suficiente pero no siempre completo (especialmente en graves). En caso de residuo excesivo, el sistema generaría unas máscaras extendidas para realizar la sustracción espectral.
Para eliminar los problemas de ambigüedad entre octavas que aparecen al comparar una señal con patrones de todas las octavas, se realiza una predetección del rango de la octava para disminuir el número de patrones usados en el reconocimiento eliminando los que puedan causar problemas de ambigüedad. Esta predetección puede crear problemas en la identificación de los acordes abiertos (los que tienen las notas repartidas en dos octavas consecutivas).
2.9.2.3.- Acordes y Señales a Identificar
Las notas y los acordes a identificar serán de todas las octavas del rango del piano, tanto de graves como de octavas altas. Se identificarán diversos tipos de acordes, entre ellos: mayores, menores, con séptima disminuida, cerrados y abiertos. El uso de acordes de más de 4 notas es poco frecuente y no se considera objetivo de esta Tesis. La polifonía debida a dos manos, típica en el piano, tampoco será abordada.
Las señales usadas para entrenar y para identificar provendrán de pianos acústicos grabados “in-situ” en salas de ensayo, con ejecución de las notas y de los acordes a usar por parte de un pianista o estudiante de piano.
Las notas se usarán para el entrenamiento y los acordes directamente para la identificación.
Los acordes se ejecutarán de dos maneras: “stacatto” y “legato”. “Stacatto” supone un ataque rápido de los dedos a las teclas desde una posición separada de ellas y una suelta rápida
CAPÍTULO 2: REVISIÓN Y OBJETIVOS
de las teclas. Es la forma de ejecutar acordes de corta duración pues el apagador cae sobre la cuerda apenas soltar la tecla. “Legato” supone pulsar las teclas de forma suave a partir de una posición de la mano con los dedos apoyados en ellas, y sin soltar las teclas una vez pulsadas. Da lugar a acordes de larga duración.
2.9.3.- OBJETIVOS CONCRETOS
Implementar el método descrito supone llevar a cabo una serie de objetivos concretos. Son objetivos de esta tesis:
1-Desarrollar un modelo de piano que permita obtener patrones para reconocimiento. A partir de las bases acústicas de la vibración de cuerdas y de documentación específica sobre pianos, se acopian los detalles teóricos y prácticos de los aspectos que influyen en el