2014-ENIAC

(1)

Classificação Automática de Gêneros Musicais

Latinos Utilizando Sistemas Fuzzy

João M. A. Bernardi

1,2

, Marcos H. S. de Andrade

1,2

, Glaucia M. Bressan

1,2

, Carlos N. Silla Jr.

1

1_{Laboratório de Computação e Tecnologia Musical} 2_{Departamento de Matemática}

Universidade Tecnológica Federal do Paraná

Av. Alberto Carazzai, 1640 CEP 86300-000 - Cornélio Procópio, PR, Brasil [email protected]; [email protected];

[email protected]; [email protected]

Resumo — Este trabalho apresenta a construção de um sistema fuzzy para a classificação automática de gêneros musicais latinos. Os atributos de entrada do sistema são referentes ao timbre musical, o qual permite distinguir se sons da mesma frequência foram produzidos por fontes distintas. Os gêneros a serem classificados, que constituem as saídas do sistema de classificação, são: tango, salsa, forró, axé e bachata. O crescente aumento do número de gêneros musicais, as suas fusões e suas influências, motivam o uso da lógica fuzzy, pois assim é possível considerar as incertezas e a nebulosidade entre as fronteiras dos gêneros. Os resultados se mostram promissores, pois sugerem erros menores e uma classificação próxima à descrição dos critérios de decisão humana.

Palavras-chaves—classificação fuzzy, gêneros musicais, sistemas neurofuzzy

I. INTRODUÇÃO

A classificação de gêneros musicais tem se tornado um problema relevante principalmente para a indústria midiática, a qual deve administrar grandes catálogos armazenados em uma base de dados, de acordo com [3]. Desta forma, a classificação em gêneros procura agrupar a música de acordo com características comuns. Porém, quando estas características se misturam, subgêneros ou estilos de fusão são utilizados em um processo interminável, pois cada produção é constantemente influenciada por outros gêneros. Dividir a música em gêneros é uma tentativa de classificar cada execução (ou composição) de acordo com critérios objetivos, que não são sempre fáceis de definir.

A classificação de gêneros musicais, tradicionalmente, tem sido desenvolvida como um processo manual, demandando um grande esforço humano e dedicação, segundo [1]. A correta associação entre gêneros e fragmentos musicais é fundamental para diversas aplicações, como por exemplo, sistemas de recomendação musical. Devido ao aumento de gêneros e suas fusões, este método tradicional se tornou obsoleto, como afirma Dannenberg et al (2001) [1].

Considerando os autores que fizeram uso de classificadores e regras fuzzy para o problema de classificação

de gêneros musicais, em [4] é apresentada uma tentativa preliminar de aplicar um sistema baseado em regras fuzzy em cooperação com Algoritmos Genéticos para a classificação de gêneros musicais. A Transformada Rápida de Fourier é aplicada a um fragmento da música a ser analisada e as frequências mais altas – e suas relações – constituem a única entrada do sistema de classificação. Apenas dois gêneros são considerados: jazz e clássico. Segundo os autores, esta foi a primeira vez que uma abordagem fuzzy foi aplicada ao problema. Em seguida, Fernández e Chávez (2011) desenvolveram um estudo mais sistemático, considerando a influência do número de amostras e a capacidade do sistema treinado classificar dados não observados. Os mesmos gêneros (jazz e clássico) foram considerados. Em seu último trabalho, Fernández e Chávez (2012) apresentam um grupo de classificadores que usa uma abordagem híbrida fuzzy-genética. Usando um conjunto de Sistemas Baseados em Regras Fuzzy automaticamente ajustado por um Algoritmo Genético, e estruturado em duas camadas, o sistema é capaz de classificar corretamente amostras dos gêneros jazz e clássico, selecionadas a partir de um conjunto de autores.

Embora algumas técnicas tenham sido propostas na literatura, como pode ser visto em [2], [3], [4], [8] e [9], não existe uma solução geral para a classificação automática de gêneros musicais, principalmente devido à definição imprecisa entre suas fronteiras. Além disso, quando uma classificação automática é almejada, a extração de atributos de entrada e um sistema eficiente, capaz de processá-los, se fazem necessários.

(2)

desenvolver um Sistema Fuzzy para classificação automática de gêneros musicais latinos, utilizando dados numéricos correspondentes ao timbre musical. As contribuições que podem ser destacadas no desenvolvimento deste trabalho são: a verificação do tipo de função de pertinência que melhor se ajusta aos dados (apresenta o menor erro) e a geração automática da base de regras e dos parâmetros das funções de pertinência por um sistema neurofuzzy.

As seções seguintes estão organizadas da seguinte forma: a Seção II traz o referencial teórico dos sistemas

neurofuzzy e do classificador fuzzy, bem como o procedimento de extração dos atributos e da base de dados para a classificação. A Seção III descreve os resultados obtidos a partir do sistema neurofuzzy (parâmetros das funções de pertinência e base de regras) e da classificação dos gêneros musicais.

II. REFERENCIAL TEÓRICO

A principal vantagem de aplicar um sistema de classificação

fuzzy é sua capacidade de tratar as incertezas para gerar bons classificadores. Por isso, é uma ferramenta promissora para a classificação de gêneros musicais, devido às imprecisões presentes entre as fronteiras dos gêneros.

A. Sistemas de Classificação Fuzzy

Um sistema de classificação fuzzy é composto basicamente pela definição dos parâmetros das funções de pertinência, das variáveis de entrada e saída, e de uma base de regras (do tipo ‘se-então’). Os elementos que compõem um Sistema Fuzzy podem ser vistos na Figura 1.

Fig.1. Elementos de um Sistema Fuzzy

As funções de pertinência são definidas por [10] como “uma curva que define de que forma cada ponto no conjunto entrada é relacionado a um valor de pertinência, ou grau de pertinência entre 0 e 1”. A base de regras associadas ao processo de inferência fuzzy são expressões linguísticas que descrevem a relação entre as variáveis de entrada e a de saída. As entradas são combinadas logicamente utilizando

operadores para produzir valores de saída para todas as entradas esperadas. As conclusões são então combinadas em uma soma lógica para cada função de pertinência. Estas somas lógicas devem ser combinadas em um processo de

defuzzificação para produzir a saída numérica. Para tanto, as saídas fuzzy para todas as regras são finalmente agregadas em um conjunto fuzzy. Para obter uma decisão numérica desta saída fuzzy, deve-se defuzzificar o conjunto fuzzy. Portanto, como explica [7], escolhe-se um valor representativo como a saída final.

As entradas do sistema de classificação para o problema abordado neste trabalho são atributos referentes ao timbre musical, selecionados em [12], que devem ser modelados por funções de pertinência cujos parâmetros e tipos (triangulares, trapezoidais e gaussianas) são exaustivamente testados. Os parâmetros das funções de pertinência e a base de regras foram gerados automaticamente por um Sistema

Neurofuzzy.

B. Sistemas Neurofuzzy

Uma vez que a criação de regras do tipo SE-ENTÃO e de funções de pertinência é um processo trabalhoso, os sistemas

neurofuzzy podem se encarregar de automatizar a geração destes componentes do sistema fuzzy utilizando estratégias de treinamento das redes neurais. Para o processo de treinamento, como é descrito em [10], a rede utiliza um conjunto de dados, correspondente a sinais de entrada e saída do sistema, e algum algoritmo de aprendizado, o qual modifica individualmente os pesos das interconexões de seus elementos individuais, os neurônios, de tal forma que o comportamento da rede reflita a ação desejada.

A estrutura de um Sistema Neurofuzzy pode ser vista na Figura 2, que exibe as camadas da rede Neurofuzzy, que são: as entradas numéricas; o processo de fuzzyficação das entradas; a base de regras fuzzy (linguística); os consequentes das regras e, por fim, a defuzzificação.

(3)

Os parâmetros que definem a forma das funções de pertinência (valores de pertinência máxima e mínima) podem ser determinados automaticamente por técnicas de aprendizagem e os cálculos podem ser facilitados por um vetor gradiente, que produz uma medida de como o sistema de inferência fuzzy está modelando as entradas e saídas para um dado conjunto de parâmetros. A partir do vetor gradiente, qualquer rotina de otimização pode ser aplicada para ajustar os parâmetros a fim de minimizar erros de estimativa. O treinamento é validado pela representação dos valores de entrada e saída apresentados. Assim, a combinação de redes neurais e lógica fuzzy pode proporcionar soluções promissoras para problemas envolvendo sistemas inteligentes. Para a geração automática das funções de pertinência e das regras fuzzy pode ser utilizado o aplicativo ANFIS (sistema de inferência neurofuzzy adaptativo) do MATLAB. O toolbox ANFIS do MATLAB é utilizado para efetuar o treinamento do sistema neurofuzzy com um sistema de inferência do tipo Sugeno, no qual a saída é linear ou constante. O método de treinamento da rede neural contida no sistema é um algoritmo baseado em uma abordagem híbrida, o qual combina o método backpropagation com o método dos mínimos quadrados. Este sistema de inferência adaptativo (ANFIS) pode ser visto com mais detalhes em [6].

III. RESULTADOS

A. Detalhes Experimentais

Neste trabalho foi utilizado um subconjunto das músicas disponíveis na Latin Music Database [11]. Em especial foram selecionadas 300 músicas de cinco diferentes gêneros musicais (Tango, Salsa, Forró, Axé e Bachata).

Para a extração de características das músicas, foi utilizado o software Marsyas [16] para características relacionadas ao timbre das músicas. Neste trabalho o Marsyas foi utilizado no sinal de áudio completo de cada música para extrair os seguintes atributos:

x Atributo 1 – a soma global do histograma (potência do tom);

x Atributo 2 – período do pico máximo do histograma desdobrado;

x Atributo 3 – Amplitude do pico máximo do histograma dobrado;

x Atributo 4 – Período do pico máximo do histograma dobrado;

x Atributo 5 – Intervalo do tom entre os 2 picos mais proeminentes do histograma dobrado;

B. Construção do Classificador Fuzzy

O conjunto de dados de entrada e saída utilizado no editor ANFIS é uma matriz com os dados de entrada numéricos, referentes ao timbre musical. O conjunto de dados de entrada, então, é formado por 5 atributos que, por sua vez, são

arranjados como vetores, ou seja, cada coluna da matriz corresponde a um dos atributos.

A última coluna desta matriz de dados apresenta os dados de saída. Cada linha de combinação das entradas corresponde a um dos 5 ritmos latinos de saída: 1 – Tango, 2 – Salsa, 3 – Forró, 4 – Axé, 5 – Bachata .

C. Estrutura do Sistema Neurofuzzy

A estrutura do sistema neurofuzzy para as entradas e saídas do problema abordado neste trabalho é ilustrada na Figura 3. Nesta figura, “input” representa os 5 atributos de entrada do sistema (os quais são descritos na Seção III); “inputmf” representa as 3 classes nas quais cada atributo está particionado de acordo com as funções de pertinência treinadas pelo Sistema Neurofuzzy (baixo, médio e alto); “rule” são as regras do tipo “se-então” (provenientes da combinação das classes); “outputmf” representa a saída de cada uma das regras e, por fim, “output” é a saída resultante.

Fig.3. Estrutura do Sistema Neurofuzzy para a Classificação dos Gêneros Musicais

Desta forma, tem-se a extração do conhecimento sob o formato de regras fuzzy. Os 5 atributos de entrada, numéricos, referentes ao timbre musical, são classificados em 3 tipos de classe (baixo, médio e alto), cujas combinações possíveis geram uma base de regras do tipo “se-então”, conectadas pelo operador lógico “e”.

D. Funções de Pertinência

As funções de pertinência das entradas são modeladas e seus parâmetros são ajustados pelo sistema neurofuzzy. O tipo de função aplicada neste problema é a gaussiana, por apresentar o menor erro em relação às funções triangulares e trapezoidais, devido a uma maior suavidade entre as fronteiras das classes. Cada um dos 5 atributos de entrada é dividido em 3 classes: baixo, médio e alto, conforme os parâmetros especificados na Tabela I.

(4)

TABELA I. PARÂMETROS DAS FUNÇÕES DE PERTINÊNCIA AJUSTADOS PELO SISTEMA NEUROFUZZY

Atributos Classes Parâmetros

Atributo 1

Baixo Médio Alto

Baixa-[0.1213 0.002926] Média-[0.1277 0.2963] Alta - [0.1292 0.5975]

Atributo 2

Baixo Médio Alto

Baixa – [0.2126 0.001197] Média – [0.2091 0.5005] Alta – [0.2133 0.9985]

Atributo3

Baixo Médio Alto

Baixa – [0.2091 0.01516] Média – [0.2155 0.5045] Alta – [0.2155 0.5045]

Atributo 4

Baixo Médio Alto

Baixa – [0.2125 0.0001928] Média – [0.2116 0.5] Alta – [0.212 0.997]

Atributo 5

Baixo Médio Alto

Baixa – [0.2129 0.0005242] Média – [0.2118 0.5] Alta – [0.2141 0.9988]

Fig.4. Funções de Pertinência das entradas: (a) Atributo 1, (b) Atributo 2, (c) Atributo 3, (d) Atributo 4 e (e) Atributo 5.

As funções de pertinência das saídas são modeladas como funções constantes, por se referirem aos 5 gêneros musicais considerados. O sistema de inferência fuzzy é do tipo Sugeno [7].

E. Base de Regras

A base de regras do tipo ‘se-então’ para o problema abordado foi então gerada pelo sistema neurofuzzy. As entradas são combinadas logicamente utilizando o operador “e”, indicando que as entradas ocorrem simultaneamente. Como o sistema é constituído por 5 atributos de entrada, divididos em 3 classes cada um (baixo, médio e alto), foram geradas 35 = 243 regras, provenientes da combinação dos atributos. Por exemplo, a regra número 13 é descrita como:

SE atributo 1 é “baixo” e atributo 2 é “baixo” e atributo 3 é “médio” e atributo 4 é “médio” e atributo 5 é “baixo” ENTÃO o gênero é tango.

Após a geração da base de regras e das funções de pertinência pelo sistema neurofuzzy, estes componentes são inseridos no sistema de classificação fuzzy para que os gêneros aqui considerados possam ser classificados automaticamente considerando a nebulosidade de suas fronteiras. A execução da regra de número 13 pode ser vista na Figura 5: SE atributo 1 é “baixo” e atributo 2 é “baixo” e atributo 3 é “médio” e atributo 4 é “médio” e atributo 5 é “baixo” ENTÃO a saída é tango.

Fig.5. Execução da Regra 13

No sistema fuzzy, todas as saídas, de cada uma das regras, são então agregadas em um único conjunto fuzzy, aplicando-se o método máximo descrito por [7]. Para produzir uma saída numérica a partir deste conjunto fuzzy final, o método do centroide foi aplicado na defuzzificação. Este valor numérico deve variar de 0 a 5, indicando a fusão de gêneros musicais.

F. Classificação Fuzzy de Gêneros Musicais

Os resultados obtidos pela classificação automática do sistema fuzzy podem ser visualizados na Tabela II. Devido à inviabilidade de se construir uma escala entre os gêneros musicais, enumerados de 1 a 5, são considerados “acertos” os resultados da validação cruzada que pertencerem ao intervalo considerado para cada saída. Por exemplo, para o gênero “tango”, que recebeu o número “1”, são consideradas “tango” todas as saídas cujo resultado da defuzzificação pertence ao intervalo ]0,5 1,6[. Desta forma, observando a Tabela II, na primeira coluna tem-se os gêneros latinos considerados, que constituem nas saídas do sistema e na segunda coluna são apresentados os intervalos considerados para cada uma das saídas, cujas sobreposições são devidas às fusões entre os gêneros musicais. De acordo com os resultados da validação cruzada, foi alcançado um índice de acerto de 76,6%. Em comparação com o classificador tradicional KNN - “vizinho mais próximo” [17] - no qual as classes são mutuamente excludentes, associando os rótulos 1, 2, 3, 4 ou 5 para as saídas, o índice de acerto deste é de 57%.

(5)

entrada do sistema de classificação. Para isso, pretende-se construir um sistema fuzzy para cada gênero musical latino considerado para classificação, de forma que se obtenha, para cada conjunto de entradas, um grau de pertinência em cada um dos gêneros.

TABELA II. RESULTADOS

Saídas do

Sistema Fuzzy

Intervalos considerados 1 - TANGO ]0,5 1,6[

2 - SALSA ]1,5 2,8[

3 - FORRÓ ]2,4 3,9[

4 - AXÉ ]3,5 4, 5[ 5 - BACHATA ]4,3 5,5[

IV. COMENTÁRIOS FINAIS

A maioria dos métodos existentes para classificação de gêneros musicais é limitada a classificar apenas um gênero musical. Desta forma, o uso da lógica fuzzy para classificação automática de gêneros musicais é motivada pelo fato de uma música ser influenciada por vários outros gêneros e apresentar uma certa fusão, com fronteiras nebulosas entre eles. Pretende-se comparar os resultados obtidos com outros classificadores, como o FKNN – vizinho mais próximo fuzzy – [18] e considerar uma quantidade maior de gêneros musicais como saída do sistema de classificação.

AGRADECIMENTOS

Agradecemos o Departamento de Matemática e o Diretor de Pesquisa e Pós-Graduação da Universidade Tecnológica Federal do Paraná, campus Cornélio pelo apoio concedido ao desenvolvimento deste trabalho.

REFERÊNCIAS

[1] DANNENBERG, R., FOOTE, J., TZANETAKIS, G., WEARE, C.: “Panel: new directions in music information retrieval”. In: International Computer Music Conference, Cuba, 2001.

[2] FERNÁNDEZ, F., CHÁVEZ, F.: “Fuzzy Rule Based System Ensemble for Music Genre Classification”. Evolutionary and Biologically Inspired Music, Sound, Art and Design EvoMUSART, vol. 7247 of Lecture Notes in Computer Science, pp. 84-95. Springer,2012.

[3] FERNÁNDEZ, F., CHÁVEZ, F.: “On the application of Fuzzy Rule-Based Systems to Musical Genre Classification”. In: 1st Workshop on Evolutionary Music. IEEE CEC, New Orleans, EE.UU, pp. 25–31, 2011. [4] FERNÁNDEZ, F., CHÁVEZ, F., ALCALÁ, R., HERRERA, F.:

“Musical Genre Classification by means of Fuzzy Rule-Based Systems: A preliminary approach”. In: IEEE Congress on Evolutionary Computation, IEEE CEC, New Orleans, EE.UU, vol. 13, no. 2, pp. 303– 319, 2011.

[5] FU, Z., LU, G., TING, K.M., ZHANG, D.: “A Survey of Audio-Based Music Classification and Annotation”. IEEE Transactions on Multimedia, pp. 2571–2577, 2011.

[6] JANG, J. R. “Anfis: Adaptive - network - based fuzzy inference system”, IEEE Transactions on Systems, Man, and Cybernetics, vol. 23, no. 3, pp. 665–685, 1993

.

[7] PEDRYCZ, W. E GOMIDE, F. “An Introduction to Fuzzy Sets”, MIT Press, 1998.

[8] PONCE LEÓN, P., RIZO D., RAMÍREZ R., IÑESTA J. M. “Melody Characterization by a Genetic Fuzzy System”. Sound and Music Computing Conference. Berlin, Alemanha, 2008.

[9] RIZO, D., PONCE DE LEÓN, P. J., PÉREZ-SANCHO, C., PERTUSA A., IÑESTA, J. M. “A pattern recognition approach for melody track selection in midi files,” in Proceddings of the 7th International Symposium on Music Information Retrieval ISMIR, T. A. Dannenberg R., Lemström K., Ed., Victoria, Canada, pp. 61–66, 2006.

[10] SHAW, I. S.; SIMÕES, M. G. “Controle e Modelagem Fuzzy”, 1ª edição, Edgard Blücher, São Paulo, SP, 1999.

[11] SILLA JR, C.N., KOERICH, A.L., KAESTNER, C.A.A “The Latin Music Database.” Proceedings of the International Society for Music Information Retrieval, pp. 451–456, 2008.

[12] SILLA JR, C.N., KOERICH, A.L., KAESTNER, C.A.A “A Feature Selection Approach for Automatic Music Genre Classification.”

International Journal of Semantic Computing, vol. 3, no. 2, pp. 183– 208, 2009.

[13] TZANETAKIS, G; COOK, PERRY. “Musical Genre Classification of Audio Signals.” IEEE Transactions on Speech and Audio Processing,

vol. 10, no. 5, pp. 293- 302, 2002.

[14] ZADEH, L. A.; FU, K.-S.; TANAKA, K., SHIMURA, M. “Fuzzy sets and their applications to cognitive and decision processes”. Academic Press, Inc. New York San Francisco London, 1975.

[15] ZIMMERMANN, H. J. “Fuzzy sets theory and its applications”. Boston: Kluwer, 1991

.

[16] TZANETAKIS, G., COOK, P.: “Marsyas: A framework for audio analysis”. Organized Sound, vol. 4, pp. 169–175, 1999.

[17] DUDA, R. O.; HART, P. E.; STORK, D. G. “Pattern Classification”. Wiley, 2001.