Nesta secc¸ ˜ao, a metodologia proposta para o clustering ´e aplicada em diferentes conjuntos de dados simulados e os resultados s ˜ao apresentados.
Para a aplicac¸ ˜ao do clustering K-M ´edias longitudinal com a dist ˆancia Euclidiana us ´amos a biblioteca kml do software R [36], constru´ıda especificamente para o agrupamento de tra- jet ´orias longitudinais. Os conjuntos de dados simulados foram criados a partir da func¸ ˜ao gald (generateArtificialLongData), que cria um conjunto de dados longitudinais simulados (unidi- mensionais) e transforma-os num objeto da classe ClusterLongData, pronto para ser usado pela func¸ ˜ao kml.
N ´os ger ´amos dois conjuntos de dados que est ˜ao apresentados na figura 3.1. O primeiro cont ´em 3 clusters, 4 unidades de tempo e 150 trajet ´orias (50 em cada grupo) podendo todas
FCUP
Novos Desenvolvimentos em An ´alise de Dados
estas serem escritas pela notac¸ ˜ao de uma func¸ ˜ao afim: 1) y = −t + 10, 2) y = t e 3) y = 15. O segundo cont ´em 2 clusters, 8 unidades de tempo e 200 trajet ´orias (100 em cada grupo), obtidas, de um modo semelhante ao anterior, das func¸ ˜oes trigonom ´etricas: 1) y = sin(t) e 2) y = − sin(t). As traject ´orias m ´edias s ˜ao definidas pelo par ˆametro meanTrajectories. As outras trajet ´orias s ˜ao determinadas pelos par ˆametros personalVariation e residualVariation; o primeiro define a variac¸ ˜ao individual entre uma trajet ´oria e a sua trajet ´oria m ´edia e o segundo atribui um ru´ıdo a todas as trajet ´orias. Estes dois ´ultimos par ˆametros foram modelados com uma distribuic¸ ˜ao uniforme, respectivamente U (1,4) e U (1,4) para a primeira situac¸ ˜ao e U (1,10) e U (1,2) na segunda situac¸ ˜ao.
A escolha destas func¸ ˜oes n ˜ao foi aleat ´oria. `A medida que fomos trabalhando o tema per- cebemos que o m ´etodo tradicional, que usa a dist ˆancia Euclidiana, faz sempre uma divis ˜ao de grupos por conterem trajet ´orias pr ´oximas e n ˜ao pelo comportamento destas. Assim, nos nossos exemplos, inclu´ımos trajet ´orias simples, com alguma sobreposic¸ ˜ao e compar ´amos os m ´etodos. N ´os aplic ´amos sempre para o nosso m ´etodo a transformac¸ ˜ao YA, que usa a matriz
AR(1) como matriz de vari ˆancias-covari ˆancias.
Figura 3.1: Trajet ´orias simuladas. Conjunto de dados 1 (lado esquerdo), Conjunto de dados 2 (lado direito).
1. An ´alise do primeiro conjunto de dados:
Figura 3.2: Trajet ´orias afins. Da esquerda para a direita: Dados originais X, Dados transformados YA s/ perfis, Dados transformados YAc/ perfil I.
Numa primeira an ´alise depar ´amo-nos r ´apidamente com uma vantagem do nosso m ´etodo. Para o m ´etodo tradicional os crit ´erios sugeriram que o n ´umero de grupos mais adequado era 6 e os nossos m ´etodos (utilizando apenas a transformac¸ ˜ao YA ou a transformac¸ ˜ao
com o perfil I) sugeriram 3 grupos, o n ´umero de grupos real. Apesar de conhecido o verdadeiro n ´umero de grupos, avali ´amos ambos os m ´etodos com a verdadeira divis ˜ao, tendo o objetivo de analisar a performance dos mesmos e n ˜ao dos crit ´erios de escolha do n ´umero de grupos.
A utilizac¸ ˜ao de perfis num caso como este ´e sempre indicada dado que esta t ´ecnica vai aproximar as trajet ´orias com o mesmo comportamento e assim fica mais f ´acil identifi- car os grupos existentes. Os resultados obtidos para as diferentes metodologias est ˜ao apresentados na tabela que se segue.
Cˆ C A B C A 37 13 0 B 1 49 0 C 11 0 39 Cˆ C A B C A 50 0 0 B 0 50 0 C 0 0 50
Tabela 3.1: Dados originais X (lado esquerdo); Dados transformados YAs/ perfis e YAc/ perfil
I (lado direito, resultados coincidentes).
Neste exemplo ambos os nossos m ´etodos conseguiram ter uma precis ˜ao de 100% en- quanto o m ´etodo tradicional obteve uma precis ˜ao de 83, 33%. De facto, mesmo sem perfis o nosso m ´etodo obteve um resultado excelente. Ainda assim, gr ´aficamente, ´e mais clara a atribuic¸ ˜ao dos grupos na metodologia com o perfil.
Os resultados deste exemplo corroboraram as raz ˜oes intuitivas que mencion ´amos atr ´as relativamente `as falhas do m ´etodo tradicional. Este ´ultimo faz, de facto, uma divis ˜ao por camadas e n ˜ao por comportamentos o que o levou a alguns desacertos principal- mente nas zonas de sobreposic¸ ˜ao entre grupos. Por outro lado, os nossos m ´etodos conseguiram identificar perfeitamente todos os comportamentos, mesmo em zonas de sobreposic¸ ˜ao, sendo estes os claros fatores de vantagem na nossa metodologia.
FCUP
Novos Desenvolvimentos em An ´alise de Dados
Figura 3.3: Trajet ´orias trigonom ´etricas. Dados originais X, Dados transformados YAs/ perfis.
Uma vez mais a sugest ˜ao do n ´umero de grupos adequado foi desajustada no m ´etodo tradicional. Este sugeriu 4 grupos e o nosso m ´etodo sugeriu os dois grupos reais. Neste exemplo, a utilizac¸ ˜ao dos perfis n ˜ao foi considerada pois todas as trajet ´orias (e conse- quentemente, todos os comportamentos) est ˜ao maioritariamente sobrepostas pelo que em casos como este n ˜ao h ´a necessidade de se utilizar esta t ´ecnica.
Tal como no exemplo anterior, avali ´amos a performance de ambos os m ´etodos com a divis ˜ao correta e apresent ´amos os resultados na tabela que se segue.
CCˆ A B A 66 34 B 41 59 CCˆ A B A 100 0 B 2 98
Tabela 3.2: Dados originais X (lado esquerdo); Dados transformados YAs/ perfis (lado direito).
O nosso m ´etodo obteve agora uma precis ˜ao de 99% enquanto que o m ´etodo tradicional conseguiu apenas 62, 5%. Mais uma vez observamos que quando as trajet ´orias est ˜ao sobrepostas e t ˆem comportamentos diferentes, o m ´etodo tradicional n ˜ao tem resultados muito favor ´aveis. Por outro lado o nosso m ´etodo apresenta resultados bastante bons.
Para complementar o estudo, tamb ´em cri ´amos um c ´odigo, em R, que apresenta a divis ˜ao conseguida pela nova metodologia sobre as traject ´orias originais. Os resultados obtidos foram os seguintes:
Figura 3.4: Trajet ´orias afins - Trajet ´orias com a verdadeira atribuic¸ ˜ao vs Metodologia tradicional.
Em baixo - Trajet ´orias com a verdadeira atribuic¸ ˜ao vs Metodologia inovadora (com e sem perfis, uma vez que os resultados foram coincidentes).
De facto, na metododologia usual este conjunto de simulac¸ ˜oes apresenta falhas evi- dentes em regi ˜oes onde existem sobreposic¸ ˜oes de trajet ´orias. Por exemplo, ´e poss´ıvel observar que na passagem do grupo C para o grupo B, o m ´etodo tradicional n ˜ao apre- sentou sobreposic¸ ˜oes de diferentes comportamentos sendo estas not ´orias nas trajet ´orias que apresentam as verdadeiras atribuic¸ ˜oes.
Por outro lado, a nova metodologia, at ´e mesmo sem perfis, conseguiu identificar todos os comportamentos na perfeic¸ ˜ao.
FCUP
Novos Desenvolvimentos em An ´alise de Dados
Figura 3.5: Trajet ´orias trigonom ´etricas - Trajet ´orias com a verdadeira atribuic¸ ˜ao vs Metodologia tradicional. Em baixo: Trajet ´orias com a verdadeira atribuic¸ ˜ao vs Metodologia inovadora.
No ´ultimo conjunto de simulac¸ ˜oes as falhas da metodologia usual s ˜ao mais evidentes. De facto at ´e as trajet ´orias m ´edias est ˜ao bastante desfasadas do comportamento real. Novamente as sobreposic¸ ˜oes voltaram a ser essencias para equivocar a metodologia tradicional que desconsidera o comportamento destas.
A nossa metodologia, mais uma vez, conseguiu identificar os diferentes comportamentos de uma forma muito positiva.