Advanced Code Obfuscation Methods - Quantitative measures for code obfuscation security

Nesta secç ão, a metodologia proposta para o clustering é aplicada em diferentes conjuntos de dados simulados e os resultados s ão apresentados.

Para a aplicaç ão do clustering K-M édias longitudinal com a dist ância Euclidiana us ámos a biblioteca kml do software R [36], constru´ıda especificamente para o agrupamento de trajet órias longitudinais. Os conjuntos de dados simulados foram criados a partir da funç ão gald (generateArtificialLongData), que cria um conjunto de dados longitudinais simulados (unidi- mensionais) e transforma-os num objeto da classe ClusterLongData, pronto para ser usado pela funç ão kml.

N ós ger ámos dois conjuntos de dados que est ão apresentados na figura 3.1. O primeiro cont ém 3 clusters, 4 unidades de tempo e 150 trajet órias (50 em cada grupo) podendo todas

FCUP

Novos Desenvolvimentos em An ´alise de Dados

estas serem escritas pela notaç ão de uma funç ão afim: 1) y = −t + 10, 2) y = t e 3) y = 15. O segundo cont ém 2 clusters, 8 unidades de tempo e 200 trajet órias (100 em cada grupo), obtidas, de um modo semelhante ao anterior, das funç ões trigonom étricas: 1) y = sin(t) e 2) y = − sin(t). As traject órias m édias s ão definidas pelo par âmetro meanTrajectories. As outras trajet órias s ão determinadas pelos par âmetros personalVariation e residualVariation; o primeiro define a variaç ão individual entre uma trajet ória e a sua trajet ória m édia e o segundo atribui um ru´ıdo a todas as trajet órias. Estes dois últimos par âmetros foram modelados com uma distribuiç ão uniforme, respectivamente U (1,4) e U (1,4) para a primeira situaç ão e U (1,10) e U (1,2) na segunda situaç ão.

A escolha destas funç ões n ão foi aleat ória. À medida que fomos trabalhando o tema per- cebemos que o m étodo tradicional, que usa a dist ância Euclidiana, faz sempre uma divis ão de grupos por conterem trajet órias pr óximas e n ão pelo comportamento destas. Assim, nos nossos exemplos, inclu´ımos trajet órias simples, com alguma sobreposiç ão e compar ámos os m étodos. N ós aplic ámos sempre para o nosso m étodo a transformaç ão YA, que usa a matriz

AR(1) como matriz de vari ˆancias-covari ˆancias.

Figura 3.1: Trajet ´orias simuladas. Conjunto de dados 1 (lado esquerdo), Conjunto de dados 2 (lado direito).

1. An ´alise do primeiro conjunto de dados:

Figura 3.2: Trajet ´orias afins. Da esquerda para a direita: Dados originais X, Dados transformados YA s/ perfis, Dados transformados YAc/ perfil I.

Numa primeira an álise depar ámo-nos r ápidamente com uma vantagem do nosso m étodo. Para o m étodo tradicional os crit érios sugeriram que o n úmero de grupos mais adequado era 6 e os nossos m étodos (utilizando apenas a transformaç ão YA ou a transformaç ão

com o perfil I) sugeriram 3 grupos, o n úmero de grupos real. Apesar de conhecido o verdadeiro n úmero de grupos, avali ámos ambos os m étodos com a verdadeira divis ão, tendo o objetivo de analisar a performance dos mesmos e n ão dos crit érios de escolha do n úmero de grupos.

A utilizaç ão de perfis num caso como este é sempre indicada dado que esta t écnica vai aproximar as trajet órias com o mesmo comportamento e assim fica mais f ácil identificar os grupos existentes. Os resultados obtidos para as diferentes metodologias est ão apresentados na tabela que se segue.

C_ˆ C A B C A 37 13 0 B 1 49 0 C 11 0 39 C_ˆ C A B C A 50 0 0 B 0 50 0 C 0 0 50

Tabela 3.1: Dados originais X (lado esquerdo); Dados transformados YAs/ perfis e YAc/ perfil

I (lado direito, resultados coincidentes).

Neste exemplo ambos os nossos m étodos conseguiram ter uma precis ão de 100% enquanto o m étodo tradicional obteve uma precis ão de 83, 33%. De facto, mesmo sem perfis o nosso m étodo obteve um resultado excelente. Ainda assim, gr áficamente, é mais clara a atribuiç ão dos grupos na metodologia com o perfil.

Os resultados deste exemplo corroboraram as raz ões intuitivas que mencion ámos atr ás relativamente às falhas do m étodo tradicional. Este último faz, de facto, uma divis ão por camadas e n ão por comportamentos o que o levou a alguns desacertos principal- mente nas zonas de sobreposiç ão entre grupos. Por outro lado, os nossos m étodos conseguiram identificar perfeitamente todos os comportamentos, mesmo em zonas de sobreposiç ão, sendo estes os claros fatores de vantagem na nossa metodologia.

FCUP

Novos Desenvolvimentos em An ´alise de Dados

Figura 3.3: Trajet ´orias trigonom ´etricas. Dados originais X, Dados transformados YAs/ perfis.

Uma vez mais a sugest ão do n úmero de grupos adequado foi desajustada no m étodo tradicional. Este sugeriu 4 grupos e o nosso m étodo sugeriu os dois grupos reais. Neste exemplo, a utilizaç ão dos perfis n ão foi considerada pois todas as trajet órias (e conse- quentemente, todos os comportamentos) est ão maioritariamente sobrepostas pelo que em casos como este n ão h á necessidade de se utilizar esta t écnica.

Tal como no exemplo anterior, avali ámos a performance de ambos os m étodos com a divis ão correta e apresent ámos os resultados na tabela que se segue.

CCˆ A B A 66 34 B 41 59 CCˆ A B A 100 0 B 2 98

Tabela 3.2: Dados originais X (lado esquerdo); Dados transformados YAs/ perfis (lado direito).

O nosso m étodo obteve agora uma precis ão de 99% enquanto que o m étodo tradicional conseguiu apenas 62, 5%. Mais uma vez observamos que quando as trajet órias est ão sobrepostas e t êm comportamentos diferentes, o m étodo tradicional n ão tem resultados muito favor áveis. Por outro lado o nosso m étodo apresenta resultados bastante bons.

Para complementar o estudo, tamb ém cri ámos um c ódigo, em R, que apresenta a divis ão conseguida pela nova metodologia sobre as traject órias originais. Os resultados obtidos foram os seguintes:

Figura 3.4: Trajet órias afins - Trajet órias com a verdadeira atribuiç ão vs Metodologia tradicional.

Em baixo - Trajet órias com a verdadeira atribuiç ão vs Metodologia inovadora (com e sem perfis, uma vez que os resultados foram coincidentes).

De facto, na metododologia usual este conjunto de simulaç ões apresenta falhas evidentes em regi ões onde existem sobreposiç ões de trajet órias. Por exemplo, é poss´ıvel observar que na passagem do grupo C para o grupo B, o m étodo tradicional n ão apre- sentou sobreposiç ões de diferentes comportamentos sendo estas not órias nas trajet órias que apresentam as verdadeiras atribuiç ões.

Por outro lado, a nova metodologia, at é mesmo sem perfis, conseguiu identificar todos os comportamentos na perfeiç ão.

FCUP

Novos Desenvolvimentos em An ´alise de Dados

Figura 3.5: Trajet órias trigonom étricas - Trajet órias com a verdadeira atribuiç ão vs Metodologia tradicional. Em baixo: Trajet órias com a verdadeira atribuiç ão vs Metodologia inovadora.

No último conjunto de simulaç ões as falhas da metodologia usual s ão mais evidentes. De facto at é as trajet órias m édias est ão bastante desfasadas do comportamento real. Novamente as sobreposiç ões voltaram a ser essencias para equivocar a metodologia tradicional que desconsidera o comportamento destas.

A nossa metodologia, mais uma vez, conseguiu identificar os diferentes comportamentos de uma forma muito positiva.

In document Quantitative measures for code obfuscation security (Page 72-75)