Continuous Personal Verification Based on Keystroke Dynamics

(1)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV INTELIGENTN´ICH SYST ´

EM ˚

U

FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INTELLIGENT SYSTEMS

PR ˚

UB ˇ

E ˇ

ZN ´

A VERIFIKACE OSOB NA Z ´

AKLAD ˇ

E

DYNAMIKY STISKU KL ´

AVES

BAKAL ´

A ˇ

RSK ´

A PR ´

ACE

BACHELOR’S THESIS

AUTOR PR ´

ACE

TOM ´

A ˇ

S DOHN ´

ALEK

AUTHOR

(2)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV INTELIGENTN´ICH SYST ´

EM ˚

U

FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF INTELLIGENT SYSTEMS

PR ˚

UB ˇ

E ˇ

ZN ´

A VERIFIKACE OSOB NA Z ´

AKLAD ˇ

E

DYNAMIKY STISKU KL ´

AVES

CONTINUOUS PERSONAL VERIFICATION BASED ON KEYSTROKE DYNAMICS

BAKAL ´

A ˇ

RSK ´

A PR ´

ACE

BACHELOR’S THESIS

AUTOR PR ´

ACE

TOM ´

A ˇ

S DOHN ´

ALEK

AUTHOR

VEDOUC´I PR ´

ACE

Ing. MICHAL DOLE ˇ

ZEL

SUPERVISOR

(3)

Abstrakt

Tato práce se zabývá pr˚ubˇeˇznou verifikac´ı osob na základˇe dynamiky stisku kláves pˇri psan´ı volného textu. Jsou pˇredstaveny výhody a nevýhody této biometrické vlastnosti a také r˚uzné pˇr´ıstupy k analýze vzork˚u. Podrobnˇe je rozebrána metoda od autor˚u Gunettiho a Picar-diové, která je následnˇe upravena pro reálné vyuˇzit´ı. Na základˇe zvolené metody je navrˇzena aplikace a ta implementována pro operaˇcn´ı systém GNU/Linux. Výkonnost aplikace pˇri ve-rifikaci je prezentována na dvou datových souborech.

Abstract

This work is dealing with continuous personal verification based on keystroke dynamics during writing of free text. There are introduced advantages and disadvantages of this biometric characteristic and also different approaches to analysis of samples. In detail, there is analyzed the method of authors Gunetti and Picardi, which is afterwards modified for usage in real situations. According to chosen method there is an application for the operation system GNU/Linux designed and implemented. Performance of the application during verification is presented on two datasets.

Kl´ıˇ

cov´

a slova

Bezpeˇcnost, biometrie, behavioráln´ı biometrické vlastnosti, pr˚ubˇeˇzná verifikace, dynamika stisku kláves, volný text, Gunetti a Picardiová, n-graf.

Keywords

Security, biometrics, behavioral biometric characteristics, continuous verification, keystroke dynamics, free text, Gunetti and Picardi, n-graf.

Citace

Tomáˇs Dohnálek: Pr˚ubˇeˇzná verifikace osob na základˇe dynamiky stisku kláves, bakaláˇrská práce, Brno, FIT VUT v Brnˇe, 2012

(4)

Pr˚

ubˇ

eˇ

zn´

a verifikace osob na z´

akladˇ

e dynamiky stisku

kl´

aves

Prohl´

aˇ

sen´ı

Prohlaˇsuji, ˇze jsem tuto bakaláˇrskou práci vypracoval samostatnˇe pod veden´ım pana Ing. Mi-chala Doleˇzela. Vˇsechny literárn´ı prameny a publikace, ze kterých jsem ˇcerpal, jsou ˇrádnˇe uvedeny.

. . . . Tom´aˇs Dohn´alek

13. kvˇetna 2012

Podˇ

ekov´

an´ı

T´ımto bych chtˇel podˇekovat svému vedouc´ımu Ing. Michalovi Doleˇzelovi za jeho trpˇelivost i cenné rady, také vˇsem dobrovoln´ık˚um, kteˇr´ı se pod´ıleli na testován´ı aplikace.

c

Tom´aˇs Dohn´alek, 2012.

Tato práce vznikla jako ˇskoln´ı d´ılo na Vysokém uˇcen´ı technickém v Brnˇe, Fakultˇe in-formaˇcn´ıch technologi´ı. Práce je chránˇena autorským zákonem a jej´ı uˇzit´ı bez udˇelen´ı opr´ av-nˇen´ı autorem je nezákonné, s výjimkou zákonem definovaných pˇr´ıpad˚u.

(5)

Obsah

1 Uvod´ 2

2 Biometrie 3

2.1 Z´akladn´ı pojmy . . . 4

2.2 Fyziologick´e a behavior´aln´ı vlastnosti . . . 4

2.3 Vyhodnocován´ı biometrických systém˚u . . . 5

3 Dynamika stisku kláves 6 3.1 Analýza statického a volného textu . . . 6

3.2 Pˇr´ıznaky . . . 6

3.3 Vlastnosti verifikace na z´akladˇe dynamiky stisku kl´aves . . . 8

3.4 Pˇrehled metod . . . 8

3.5 Metoda Gunettiho a Picardiov´e . . . 11

4 N´avrh a implementace 17 4.1 Poˇzadavky na aplikaci . . . 17

4.2 N´avrh aplikace . . . 18

4.3 Pouˇzit´e technologie . . . 23

4.4 D˚uleˇzit´e rysy implementace . . . 24

4.5 Bezpeˇcnost a pouˇzitelnost . . . 26

5 Testov´an´ı 27 5.1 Datov´e soubory . . . 27

5.2 Metodika testov´an´ı . . . 28

5.3 Testovan´e vlastnosti . . . 28

6 Zhodnocen´ı dosaˇzen´ych v´ysledk˚u 30 6.1 Verifikace . . . 30

6.2 Pr˚ubˇeˇzn´a verifikace . . . 31

6.3 Závislost délky trván´ı mono-graf˚u na pouˇzité klávesnici . . . 33

7 Z´avˇer 35

(6)

Kapitola 1

´

Uvod

Klasické poˇc´ıtaˇcové systémy autentizuj´ı uˇzivatele na základˇe znalosti jména a hesla uˇzivatele, avˇsak v pr˚ubˇehu sezen´ı jsou tyto systémy zranitelné – pokud autorizovaný uˇzivatel opust´ı své pracoviˇstˇe bez odhláˇsen´ı, m˚uˇze jeho m´ısto zaujmout útoˇcn´ık, který t´ımto z´ıská plnou kontrolu nad systémem. Bylo by tedy vhodné provádˇet pr˚ubˇeˇznou verifikaci i bˇehem sezen´ı a to nejlépe nˇejakou pˇrirozenou cestou, bez vˇedom´ı uˇzivatele. Vhodným ˇreˇsen´ım se jev´ı pouˇzit´ı biometrie.

Biometrické vlastnosti m˚uˇzeme rozdˇelit do dvou kategori´ı. Prvn´ı jsou vlastnosti fyzio-logické, ke kterým ˇrad´ıme napˇr´ıklad otisky prst˚u. Tyto vlastnosti jsou povaˇzovány za rela-tivnˇe nemˇenné a mnoho z nich za unikátn´ı. Na opaˇcné stranˇe stoj´ı vlastnosti behavioráln´ı (napˇr. dynamika stisku kláves, ch˚uze, hlas atd.), které za nemˇenné povaˇzovat nelze. Obecnˇe jsou systémy rozpoznávaj´ıc´ı jedince na základˇe fyziologických vlastnost´ı úspˇeˇsnˇejˇs´ı, avˇsak k autentizaci je ˇcasto zapotˇreb´ı pˇreruˇsit právˇe vykonávanou ˇcinnost a zamˇeˇrit svou pozor-nost na biometrický senzor. V tom tkv´ı výhoda behavioráln´ıch vlastnost´ı – jedinec m˚uˇze být zkoumán na základˇe pˇrirozené ˇcinnosti jako je tˇreba psan´ı na klávesnici.

Autentizace pomoc´ı dynamiky stisku kláves pˇrináˇs´ı dalˇs´ı výhodu v absenci speciáln´ıho senzoru – ke sn´ımán´ı staˇc´ı obyˇcejná klávesnice, kterou je v dneˇsn´ı dobˇe vybavena naprostá vˇetˇsina osobn´ıch poˇc´ıtaˇc˚u. Stisknut´ı a uvolnˇen´ı kláves obsahuj´ı velice málo biometrických informac´ı, a proto je rozpoznan´ı jedince obt´ıˇzným úkolem. Práce zabývaj´ıc´ı se touto proble-matikou prezentuj´ı zaj´ımavé dosaˇzené výsledky, avˇsak skuteˇcných aplikac´ı autentizuj´ıc´ıch dle dynamiky stisku kláves je velmi málo.

C´ılem této práce je vybrat, upravit a aplikovat jeden z existuj´ıc´ıch algoritm˚u pro veri-fikaci na základˇe dynamiky stisku kláves pˇri psan´ı volného textu pro pr˚ubˇeˇznou verifikaci osob v reálném vyuˇzit´ı. V kapitole 2 jsou zavedeny základn´ı pojmy z oblasti biometrie, v následuj´ıc´ı kapitole 3 je rozebrána biometrická vlastnost dynamika stisku kláves – jej´ı výhody, nevýhody a r˚uzné metody s n´ı pracuj´ıc´ı. Kapitola 4 se zabývá návrhem a imple-mentac´ı aplikace pro operaˇcn´ı systém GNU/Linux. Výsledný systém je poté otestován na dvou datových souborech, metodika testován´ı je popsána v kapitole 5 a dosaˇzené výsledky jsou prezentovány v kapitole 6.

(7)

Kapitola 2

Biometrie

K identifikaci ˇclovˇeka lze pouˇz´ıt nˇekolik odliˇsných druh˚u metod. ˇClovˇek m˚uˇze prokázat svou totoˇznost pomoc´ı tajné znalosti, jako je napˇr´ıklad heslo ˇci PIN kód, kterou by mˇel znát pouze on. Nevýhodou tohoto zp˚usobu ovˇeˇrován´ı je moˇznost neoprávnˇeného nabyt´ı této utajované informace (napˇr. slovn´ıkový útok) nebo jej´ı zapomenut´ı, jeˇz vede k nemoˇznosti identifikace. Dalˇs´ım vhodným a pouˇz´ıvaným zp˚usobem je pˇredloˇzen´ı jedineˇcného pˇredmˇetu (obˇcanský pr˚ukaz, ˇcipová karta, kl´ıˇc), který by mˇel m´ıt v drˇzen´ı právˇe identifikovaný jedi-nec. Tato moˇznost má obdobné nevýhody v moˇzném zkop´ırován´ı tohoto pˇredmˇetu ˇci jeho ztrátˇe. Nejpohodlnˇejˇs´ı moˇznost´ı rozpoznán´ı ˇclovˇeka se jev´ı metoda porovnáván´ı lidských fy-ziologických nebo behavioráln´ıch vlastnost´ı – biometrická autentizace. Ta klade na ˇclovˇeka nejmenˇs´ı nároky, nen´ı potˇreba si nic tajného pamatovat ani s sebou nic jedineˇcného nosit – ˇ

clovˇek s´am je jedineˇcn´y. [1]

Biometrické technologie jsou definovány jako automatické metody verifikován´ı nebo rozpoznáván´ı identity ˇzivého ˇclovˇeka na základˇe jeho fyziologických ˇci behavioráln´ıch vlast-nost´ı. [2, str. 1]

V praxi se název biometrická autentizace zkracuje term´ınem biometrie, pˇrestoˇze tento term´ın je historicky pouˇz´ıván k oznaˇcen´ı aplikace statistické analýzy na biologická data. V této práci vˇsak bude pojmem biometrie myˇslena výluˇcnˇe biometrická autentizace.

Biometrie nab´ız´ı oproti tradiˇcn´ım rozpoznávac´ım mechanism˚um výhodu v pˇrirozenosti, pohodlnosti a bezpeˇcnosti. Jako kaˇzdá metoda má ovˇsem i slabé stránky, neodpadá napˇ r´ı-klad riziko falzifikace (kopie otisk˚u prst˚u, fotografie), je nutné uchovávat soukromé infor-mace o uˇzivatel´ıch a nav´ıc existuje vyˇsˇs´ı riziko zam´ıtnut´ı pˇr´ıstupu uˇzivateli legitimn´ımu.

Vˇsechny biometrické systémy mohou být rozdˇeleny do dvou ˇcást´ı: registraˇcn´ı a veri-fikaˇcn´ı ˇci identifikaˇcn´ı. Obˇe ˇcásti obsahuj´ı senzor slouˇz´ıc´ı ke sn´ımán´ı biometrické vlastnosti, jehoˇz výstupem jsou biometrická data urˇcená k dalˇs´ımu zpracován´ı. Tato data jsou v re-gistraˇcn´ı fázi sb´ırána a archivována, ˇcasto jsou oznaˇcována jako profil uˇzivatele nebo jako ˇsablona. Po nasb´ırán´ı potˇrebného mnoˇzstv´ı jsou uloˇzena do databáze spolu s informac´ı o identitˇe uˇzivatele. [3, str. 15] Druhá ˇcást biometrického systému vyuˇz´ıvá senzoru také k z´ıskán´ı biometrických dat, ta vˇsak nejsou ukládána do databáze, ale vyuˇzita pro po-rovnán´ı s údaji v databázi. Porovnán´ım zjist´ıme o jakého uˇzivatele systému jde ˇci zda se nejedná o útoˇcn´ıka. [4, str. 14–15]

(8)

2.1 Z´

akladn´ı pojmy

V této ˇcásti budou objasnˇeny pojmy, váˇz´ıc´ı se k rozpoznán´ı ˇclovˇeka. [1, str. 6]

Identita osoby Je moˇzné rozliˇsovat dvˇe identity – fyzickou a elektronickou [4, str. 10]. Fyzická je kombinac´ı biologických, psychických, vrozených i z´ıskaných vlastnost´ı a je pro kaˇzdého ˇclovˇeka jedineˇcná. Na rozd´ıl od toho elektronická identita je vytvoˇrena ve virtuáln´ım svˇetˇe a nen´ı podloˇzena ˇzádnými biologickými vlastnostmi. Jeden ˇclovˇek m˚uˇze m´ıt v´ıce elek-tronických identit.

Identifikace V identifikaˇcn´ım módu se biometrický systém snaˇz´ı rozpoznat jedince hled´ a-n´ım shody se vˇsemi ˇsablonami uˇzivatel˚u v databázi na základˇe pˇredloˇzené vlastnosti. ˇClovˇek tud´ıˇz nemus´ı svou identitu ani uvádˇet. Pokud je nalezena shoda, je jedinec prohláˇsen za uˇzivatele se shodnou ˇsablonou. Pokud shoda nalezena nen´ı, jedinci nen´ı pˇriˇrazena ˇzádná identita. Identifikace pomoc´ı biometrie m˚uˇze být pouˇzita k zamezen´ı pouˇz´ıván´ı v´ıce úˇct˚u jedn´ım uˇzivatelem.

Verifikace Pˇri verifikaci jedinec tvrd´ı, ˇze je jistým uˇzivatelem systému, a ten provˇeˇr´ı pouze shodu namˇeˇrených biometrických dat se ˇsablonou daného uˇzivatele. Verifikace pomoc´ı biometrie m˚uˇze být pouˇzita také k zamezen´ı uˇz´ıván´ı jednoho úˇctu v´ıce uˇzivateli.

Autentizace Autentizace je term´ın velmi podobný pojmu rozpoznán´ı, avˇsak po jej´ım proveden´ı je autentizovanému jedinci pˇridˇelen jeden ze dvou stav˚u – oprávnˇený ˇci ne-oprávnˇený [5].

Klasifikace Klasifikac´ı rozum´ıme tˇr´ıdˇen´ı do r˚uzných tˇr´ıd. Docház´ı k n´ı napˇr´ıklad v situaci, kdy s jistotou v´ıme, ˇze osoba, která poskytla vzorek, je uˇzivatelem systému. Klasifikace je v tomto pˇr´ıpadˇe podobná identifikaci, odpadá ovˇsem varianta, kdy je osoba prohláˇsena za ´

utoˇcn´ıka.

Pr˚ubˇeˇzná verifikace Ve vˇetˇsinˇe poˇc´ıtaˇcových systém˚u je identita uˇzivatele ovˇeˇrena pouze na zaˇcátku, v pˇrihlaˇsovac´ı fázi. Pokud ovˇsem útoˇcn´ık z´ıská pˇr´ıstup do systému poté, nelze jiˇz tuto skuteˇcnost zjistit. ˇReˇsen´ım se jev´ı pr˚ubˇeˇzná verifikace, kdy i po prvotn´ı autentizaci uˇzivatele docház´ı k dalˇs´ım ovˇeˇren´ım v pr˚ubˇehu pouˇz´ıván´ı systému. Tento postup ovˇsem nelze aplikovat u vˇsech biometrickými vlastnost´ı. Napˇr´ıklad kontinuáln´ı verifikace uˇzivatele pomoc´ı sn´ımán´ı oˇcn´ı duhovky se jev´ı ve vˇetˇsinˇe pˇr´ıpad˚u nereálná, avˇsak pro dynamiku stisku kláves je tento pˇr´ıstup vhodný.

2.2 Fyziologick´

e a behavior´

aln´ı vlastnosti

Mˇeˇritelné biometrické vlastnosti lze rozdˇelit do dvou kategori´ı a to na fyziologické (nˇekdy nazývané anatomické) a behavioráln´ı (ˇci dynamické) [3, str. 15]. Mezi fyziologické charakte-ristiky m˚uˇzeme zaˇradit otisky prst˚u, rysy obliˇceje, duhovky, ruky, ucha a dalˇs´ı. Behavioráln´ı jsou spojeny s ˇcinnost´ı zkoumaného jedince a ˇrad´ıme k nim hlas, ch˚uzi, podpis, dynamiku stisku kláves a dalˇs´ı. Behavioráln´ı vlastnosti jsou obecnˇe povaˇzovány za slabˇs´ı neˇz fyziolo-gické, protoˇze u nich docház´ı ke zmˇenám v závislosti na ˇcase. Mohou být výraznˇe ovlivnˇeny i psychickým stavem zkoumané osoby.

(9)

Pˇrestoˇze jsou fyziologické charakteristiky hodnoceny lépe neˇz behavioráln´ı, je pˇri jejich pouˇzit´ı ˇcasto potˇreba pˇreruˇsit právˇe vykonávanou ˇcinnost a zamˇeˇrit svou pozornost na biometrický senzor. Pˇri rozpoznáván´ı pomoc´ı dynamických vlastnost´ı m˚uˇze být zkoumáno samotné provádˇen´ı práce.

2.3 Vyhodnocov´

an´ı biometrick´

ych syst´

em˚

u

Klasické autentizaˇcn´ı mechanismy zpravidla nabývaj´ı pouze dvou výsledných stav˚u: pˇr´ıstup zam´ıtnut nebo pˇr´ıstup povolen. Ideáln´ı systém je bezchybný – identita legitimn´ıho uˇzivatele je vˇzdy rozpoznána a útoˇcn´ıci nejsou do systému nikdy vpuˇstˇeni. Tohoto stavu ovˇsem nelze dosáhnout. Pˇri autentizaci pomoc´ı biometrického systému je velmi nepravdˇ e-podobné, ˇze dojde k úplné shodˇe profilu uˇzivatele s právˇe z´ıskaným vzorkem. To m˚uˇze být zapˇr´ıˇcinˇeno nedokonalými senzory, nestálostmi behavioráln´ıch vlastnost´ı, zmˇenou okoln´ıch podm´ınek ˇci zmˇenami pˇri práci uˇzivatele se senzorem. Dle [1, str. 7] je absolutn´ı shoda dokonce podezˇrelá – je pravdˇepodobné, ˇze jde o útok.

Pro vyjádˇren´ı podobnosti dvou biometrických vzork˚u je definováno skóre porovnán´ı. Pokud jde o legitimn´ıho uˇzivatele a skóre porovnán´ı klesne pod práh p, mluv´ıme o chybném zam´ıtnut´ı (dále zkracováno na FR z anglického False Rejection). Tato hranice ˇci práh je anglicky oznaˇcována jako threshold. Naopak pokud jde o útoˇcn´ıka, který se snaˇz´ı vniknout do systému, a jeho skóre porovnán´ı stoupne nad daný práh p, v d˚usledku ˇcehoˇz je vpuˇstˇen do systému, mluv´ıme o chybném pˇrijet´ı (dále jen FA z anglického False Acceptance). Hodnota False Reject Rate (zkracována jako FRR) vypov´ıdá u biometrického systému o tom, jak velká ˇcást uˇzivatel˚u byla oznaˇcena za útoˇcn´ıky. Naopak False Accept Rate (zkracována na FAR) reprezentuje pomˇer útoˇcn´ık˚u, kteˇr´ı byli do systému vpuˇstˇeni. [3]

V biometrických systémech lze sledovat nepˇr´ımou závislost mezi ˇcetnost´ı omyl˚u chybného pˇrijet´ı a chybného zam´ıtnut´ı – snaha o sn´ıˇzen´ı jedné vede ke zvýˇsen´ı druhé. Je proto nutné naj´ıt kompromisn´ı hranici, která ovˇsem závis´ı na konkrétn´ı aplikaci. Pˇri snaze o neintru-sivn´ı systém je vhodné m´ıt n´ızkou m´ıru FRR za cenu ˇcastˇejˇs´ıho vpuˇstˇen´ı útoˇcn´ık˚u. Naopak pro systém, který by mˇel být dobˇre zabezpeˇcený, je tˇreba minimalizovat m´ıru FAR, ˇc´ımˇz se zvˇetˇsuje riziko, ˇze právoplatný uˇzivatel nebude vpuˇstˇen do systému a bude muset sv˚uj pokus o rozpoznán´ı opakovat nebo bude nucen prokázat svou identitu jiným zp˚usobem.

Znalost jedné z hodnot FRR ˇci FAR je bezcenná. Je vˇzdy potˇreba znát obˇe hodnoty, aby systémy mohly být vzájemnˇe porovnány. FRR a FAR jsou závislé na pouˇzitém prahu – pokud se jeho hodnoty mˇen´ı, m´ıry FAR a FRR se mˇen´ı také. Hodnoty FRR a FAR jsou na sobˇe nepˇr´ımo závislé a v praxi je ˇcasto vhodné tuto závislost podrobnˇeji znát. Na jej´ı vyjádˇren´ı a zobrazen´ı se pouˇz´ıvá ROC kˇrivka (z anglického Receiver Operating Characte-ristic). ROC kˇrivky m˚uˇzeme dˇelit dle pouˇzitých mˇeˇr´ıtek (lineárn´ı, logaritmické) pro osy.

EER (z anglického Equal Error Rate) je m´ıra vyrovnán´ı chyb FAR a FRR. Tato jed-noduchá m´ıra se vyuˇz´ıvá k porovnáván´ı systém˚u – niˇzˇs´ı EER znamená lepˇs´ı výkon. Je vˇsak potˇreba zd˚uraznit, ˇze srovnán´ı systém˚u d´ıky jedinému ˇc´ıslu také nen´ı ideáln´ı – niˇzˇs´ı m´ıra EER automaticky neznamená lepˇs´ı systém pro jiné hodnoty prahu, pro komplexnˇejˇs´ı porovnán´ı je tˇreba vz´ıt v potaz celou ROC kˇrivku.

(10)

Kapitola 3

Dynamika stisku kl´

aves

K intenzivnˇe zkoumaným oblastem biometrie m˚uˇzeme zaˇradit také behavioráln´ı vlast-nost dynamika stisku kláves. Pˇrestoˇze je verifikace na základˇe této charakteristiky v dneˇsn´ı dobˇe nejˇcastˇeji spojována s poˇc´ıtaˇcovými klávesnicemi, kde poˇc´ıtaˇc sám m˚uˇze automati-zovanˇe vyhodnocovat stisky, jej´ı p˚uvod m˚uˇzeme hledat pˇri pouˇzit´ı Morseova kódu [3]. Jiˇz za druhé svˇetové války byli operátoˇri rozpoznáváni podle prodlev mezi teˇckami a ˇcárkami v jimi odes´ılaném kódu. Jednoklávesový nástroj na jeho psan´ı m˚uˇzeme povaˇzovat za nej-jednoduˇsˇs´ı klávesnici. Obsahuje pouze jediné tlaˇc´ıtko a podporuje dvˇe základn´ı operace: stisknut´ı a uvolnˇen´ı. Modern´ı metody dynamiky stisku kláves pracuj´ı na podobném prin-cipu dodnes – na základˇe analýzy prodlev mezi jednotlivými úhozy, délek stisku a dalˇs´ıch pˇr´ıznak˚u je moˇzné urˇcit identitu pisatele.

3.1 Anal´

yza statick´

eho a voln´

eho textu

Analýzu dynamiky stisku kláves m˚uˇzeme rozdˇelit do dvou základn´ıch smˇer˚u. Prvn´ı se zabývá analýzou statického textu, coˇz je obecnˇe pˇresnˇejˇs´ı a jednoduˇsˇs´ı, druhý se zamˇeˇruje na analýzu textu volného (dynamického).

Analýzu statického textu m˚uˇzeme dále rozdˇelit na zkoumán´ı dlouhých vzork˚u a password hardening, maj´ıc´ı za úˇcel vytvoˇrit bezpeˇcnˇejˇs´ı autentizaˇcn´ı systém neˇz klasické zadán´ı pˇrihlaˇsovac´ıho jména a hesla, jeˇz je zaloˇzeno pouze na znalosti. Password hardening sle-duje bˇehem zadáván´ı autentizaˇcn´ıch informac´ı také biometrickou dynamiku stisku kláves a tu porovnává s profilem uˇzivatele. C´ılem tedy nen´ı nahradit klasické pˇrihlaˇsován´ı, pouze ho doplnit a uˇcinit bezpeˇcnˇejˇs´ım. Password hardening pracuje s velmi krátkým textem – i o délce pouhého jednoho slova – tato metoda je jednoduˇsˇs´ı neˇz ostatn´ı, protoˇze je pˇredem znám text, který bude zadáván, a nebude zde dále rozeb´ırána.

Analýza statického dlouhého textu by se dala oznaˇcit za vývojového pˇredch˚udce analýzy volného textu, tento smˇer tud´ıˇz nelze pˇri dalˇs´ım popisu vynechat.

3.2 Pˇ

r´ıznaky

Stlaˇcen´ı a uvolnˇen´ı klávesy jsou dvˇe základn´ı atomické události, ze kterých je moˇzno vyextrahovat pˇr´ıznaky. Ty dˇel´ıme v kontextu dynamiky stisku kláves do dvou kategori´ı: globáln´ı a ˇcasové (z anglického global a temporal ).

Glob´aln´ı popisuj´ı obecn´y zp˚usob psan´ı uˇzivatele. ˇRad´ıme k nim • celkovou rychlost psan´ı,

(11)

• frekvenci chyb (tu lze odhadnout pomoc´ı ˇcetnosti stisku kláves Backspace a Delete) • a styl pouˇz´ıván´ı kontroln´ıch kláves jako Ctrl, Shift, Alt.

Je potˇreba zd˚uraznit, ˇze ke zjiˇstˇen´ı glob´aln´ıch pˇr´ıznak˚u je nutno zkoumat delˇs´ı text. ˇ

Casové pˇr´ıznaky popisuj´ı styl stisku a uvolnˇen´ı konkrétn´ı klávesy ˇci jejich kombinaci. Mohou být vypoˇc´ıtány na základˇe ˇcasových známek spojených s tˇemito dˇeji. Obrázek 3.1 zobrazuje ˇcasové intervaly, které mohou být z´ıskány ze stisku a uvolnˇen´ı jedné ˇci dvou kláves. Doba mezi stiskem a uvolnˇen´ım klávesy A je v anglické literatuˇre [6] oznaˇcována jako dwell time. Délka mezi uvolnˇen´ım prvn´ı klávesy A a stisknut´ım následuj´ıc´ı klávesy B je oznaˇcována jako interval, doba trván´ı mezi dvˇema stisky následuj´ıc´ıch kláves jako flight time atd. Pomoc´ı ˇcasových údaj˚u dwell time a interval je moˇzné dopoˇc´ıtat vˇsechny zbývaj´ıc´ı. Pˇreváˇzná vˇetˇsina zde prezentovaných technik vyuˇz´ıvá pouze ˇcasové údaje dwell time a flight time, nˇekteré z nich dokonce pouze flight time. Flight time mezi klávesami A a B je moˇzné oznaˇcit také jako délku trván´ı di-grafu AB. Délkou trván´ı n-grafu poté analogicky nazveme dobu mezi stisknut´ım prvn´ı a n-té klávesy.

Obrázek 3.1: Pˇet mˇeˇritelných ˇcasových údaj˚u pˇri stisku jedné ˇci dvou kláves: a) dwell time, b) up to up, c) latency, d) interval, e) flight time. Zaˇcátkem intervalu A je myˇslen stisk klávesy A, koncem pak uvolnˇen´ı. Obdobnˇe pro B. Zdroj: [6]

Je potˇreba zd˚uraznit, ˇze nˇekteré z mˇeˇrených ˇcasových údaj˚u mohou být i záporné. Napˇr´ıklad pˇri stisku kláves a a l, které vˇetˇsinou nebývaj´ı psány stejnou rukou, je moˇzné, ˇze dojde ke stisku klávesy l pˇred uvolnˇen´ım klávesy a.

Lze brát v úvahu i dalˇs´ı moˇzné pˇr´ıznaky jako napˇr´ıklad s´ılu vyvinutou pˇri stisku klávesy ˇci sledován´ı, který prst danou klávesu stiskl [7, str. 2]. K z´ıskán´ı tˇechto alterna-tivnˇejˇs´ıch pˇr´ıznak˚u je ovˇsem zapotˇreb´ı speciáln´ıch klávesnic, a proto nebudou ve zbytku práce uvaˇzovány.

(12)

3.3 Vlastnosti verifikace na z´

akladˇ

e dynamiky stisku kl´

aves

Jak bylo prezentováno v ˇcásti 3.2, pˇr´ıznaky se daj´ı z´ıskat pomoc´ı stisk˚u a uvolnˇen´ı kláves – psan´ı na klávesnici – doprovázených ˇcasovými známkami [8, str. 313]. Taková ˇ

cinnost je pro ˇclovˇeka pouˇz´ıvaj´ıc´ıho poˇc´ıtaˇc bˇeˇzná, a proto je moˇzné verifikovat uˇzivatele i bez jeho vˇedom´ı. Nav´ıc je klávesnic´ı vybavena naprostá vˇetˇsina osobn´ıch poˇc´ıtaˇc˚u, tud´ıˇz k apli-kaci tohoto postupu nen´ı potˇreba speciáln´ıho hardware. Zkoumán´ı uˇzivatele je nav´ıc moˇzné i po pˇrihlaˇsovac´ı fázi, coˇz umoˇzˇnuje pr˚ubˇeˇznou verifikaci. Mezi nepopiratelné pˇrednosti patˇr´ı také jistá bezpeˇcnost – nen´ı pravdˇepodobné, ˇze by útoˇcn´ık dokázal napodobovat rychlost ´

uhoz˚u pˇri psan´ı [9], na druhou stranu charakteristika dynamiky stisku kl´aves pravdˇepodobnˇe nen´ı unik´atn´ı.

Na rozd´ıl od jiných biometrických vlastnost´ı úhozy poskytuj´ı velice málo informac´ı. Pisatel m˚uˇze být nav´ıc ovlivnˇen celou ˇradou negativn´ıch faktor˚u jakými jsou únava, ne-soustˇredˇenost, nemoc ˇci zranˇen´ı, které mohou negativnˇe ovlivnit výsledek analýzy. Pokud má útoˇcn´ık moˇznost vyuˇz´ıvat softwarovou virtuáln´ı klávesnici, m˚uˇze se vyhnout verifikaci. Je tud´ıˇz vhodné vyuˇz´ıvat program ovˇeˇruj´ıc´ı identitu pisatele pomoc´ı dynamiky stisku kláves spoleˇcnˇe napˇr´ıklad s programem verifikuj´ıc´ım uˇzivatele pomoc´ı dynamiky gest myˇsi a t´ım vytvoˇrit multimodáln´ı biometrický systém.

3.4 Pˇ

rehled metod

V této ˇcásti budou popsány zásadn´ı metody analýzy dynamiky stisku kláves delˇs´ıho textu a také datových soubor˚u, na kterých byly testovány. Nˇekteré postupy m˚uˇzeme oznaˇcit za historické, ale pˇresto jsou d˚uleˇzité z hlediska vývoje postup˚u modernˇejˇs´ıch a pˇresnˇejˇs´ıch. Na úvod popisu jednotlivých technik je tˇreba ˇr´ıci, ˇze metody m˚uˇzeme rozdˇelit do dvou kategori´ı podle vybraného algoritmu vyuˇzitého k analýze. Dˇelit je m˚uˇzeme na algoritmy zaloˇzené na statistickém pˇr´ıstupu a ty spoˇc´ıvaj´ıc´ı v dolován´ı dat. Statistický pˇr´ıstup tkv´ı v porovnáván´ı referenˇcn´ıho vzorku uˇzivatele se vzorkem jedince snaˇz´ıc´ıho se autentizovat v systému. D´ıky vypoˇc´ıtané statistické vzdálenosti mezi tˇemito dvˇema vzorky je pak roz-hodnuto, zda jde o legitimn´ıho uˇzivatele ˇci útoˇcn´ıka. Metody zaloˇzené na dolován´ı dat jsou kolekc´ı technik z oblast´ı umˇelé inteligence a strojového uˇcen´ı, zahrnuj´ıc´ı neuronové s´ıtˇe, a ty-picky vybuduj´ı prediktivn´ı model z historie dat a poté vyuˇzij´ı tohoto modelu k pˇredpovˇedi výsledku nového pokusu [10, str. 433]. Neuronové s´ıtˇe a podobné mechanismy maj´ı fun-damentáln´ı nevýhodu – pokud je do systému pˇridán nový uˇzivatel, je potˇreba celou s´ıt’ pˇretrénovat, coˇz m˚uˇze trvat znaˇcnou dobu.

Gaines a kolektiv Mezi pr˚ukopnické práce, analyzuj´ıc´ı statický text pomoc´ı dynamiky stisku kláves, m˚uˇzeme bezesporu zaˇradit studii [11] popisuj´ıc´ı experiment, kterého se zúˇ cast-nilo sedm profesionáln´ıch p´ısaˇr˚u. Ti byli poˇzádáni o napsán´ı totoˇzných text˚u, sloˇzených ze tˇr´ı ˇcást´ı. Druhé sezen´ı, ve kterém p´ısaˇri napsali stejný text, se uskuteˇcnilo do ˇctyˇr mˇes´ıc˚u od prvn´ıho. Kaˇzdá ˇcást obsahovala 300 aˇz 400 slov a k jejich napsán´ı byla vyuˇzita pouze malá p´ısmena. V prvn´ı ˇcásti byl pouˇzit bˇeˇzný anglický text, druhá sestávala z náhodnˇe poskládaných slov a tˇret´ı z náhodnˇe uspoˇrádaných fráz´ı.

Z takto z´ıskaných dat byly spoˇc´ıtány délky trván´ı di-graf˚u a bylo zjiˇstˇeno, ˇze kol´ısaj´ı od minimáln´ıch 75 milisekund aˇz po nˇekolik sekund. Nav´ıc se délky trván´ı di-graf˚u od kaˇzdého autora m´ırnˇe liˇsily v r˚uzných ˇcástech textu, a proto bylo nutné tyto hodnoty zkombino-vat. Pro analýzu byly vyuˇzity jen ty di-grafy, které se v textu objevily v´ıce neˇz desetkrát v kaˇzdém sezen´ı. Takových bylo 87. Tento soubor byl dále transformován odstranˇen´ım tˇech

(13)

di-graf˚u, jejichˇz délka trván´ı byla vzdálená od ostatn´ıch (tzv. outliers) a vˇsechny tyto zbylé délky trván´ı byly zlogaritmovány. Po této transformaci bylo zjiˇstˇeno, ˇze data jsou apro-ximovanˇe rozdˇelena normáln´ım rozloˇzen´ım. Pˇri pouˇzit´ı pˇeti kl´ıˇcových di-graf˚u k analýze pomoc´ı T-testu byli mezi sebou autoˇri text˚u jasnˇe rozliˇsiteln´ı.

Pˇrestoˇze celý experiment probˇehl na poˇc´ıtaˇci, k vyhodnocen´ı nebyl pouˇzit ˇzádný auto-matizovaný klasifikátor.

Umphress a Williams V prvn´ım experimentu bylo dle [12] poˇzádáno 17 programátor˚u o pˇrepsán´ı dvou r˚uzných text˚u – prvn´ı (profilový) o délce 1400 znak˚u a druhý o délce 300 znak˚u. Bˇehem druhého experimentu 36 úˇcastn´ık˚u napsalo dva totoˇzné texty o délce 537 znak˚u v rozmez´ı jednoho mˇes´ıce. Autoˇri v prvn´ım experimentu uvaˇzovali nejen porovnáván´ı délek trván´ı di-graf˚u, ale také celkovou rychlost psan´ı. Od toho ale v druhém experimentu upustili, protoˇze rychlost psan´ı nebyla dostateˇcnˇe diskriminativn´ı. K rozhodnut´ı, zda jsou si di-grafy podobné, vyuˇz´ıvali smˇerodatnou odchylku. Absolutn´ı hodnota rozd´ılu mezi testo-vaným di-grafem a pr˚umˇernou hodnotou profilových pˇr´ısluˇsných di-graf˚u musela být menˇs´ı neˇz t-násobek (t = 0,5) smˇerodatné odchylky. Pˇri experimentován´ı se snahou zjistit nejlepˇs´ı mnoˇzinu di-graf˚u a ideáln´ı maximáln´ı hraniˇcn´ı délku jejich trván´ı, která by urˇcila zda je di-graf outlier, se nejlépe osvˇedˇcila hodnota 500 milisekund a di-grafy s malými p´ısmeny.

Uˇzivatel byl úspˇeˇsnˇe verifikován, pokud mˇel alespoˇn 60 % di-graf˚u podobných. Takovýto systém dosáhl FAR 6 % a FRR 12 %.

Monrose a Rubin V textu [13] je popsán experiment, kde autoˇri poˇzádali 42 dobro-voln´ık˚u o poskytnut´ı jak statického tak dynamického textu. Jedenáct dobrovoln´ık˚u vˇsak poskytlo chybná data, která musela být vyˇrazena kv˚uli problém˚um s ˇcasován´ım událost´ı. Autoˇri se snahou vylepˇsit a navázat na pˇredchoz´ı práce vyuˇz´ıvaj´ı dva pˇr´ıznaky: délku trván´ı n-grafu a dwell time. Byly navrˇzeny tˇri klasifikátory – jeden porovnávaj´ıc´ı profil a vzorek pomoc´ı Euklidovské vzdálenosti, druhý podle neváhované pravdˇepodobnosti a tˇret´ı dle váhované pravdˇepodobnosti. Na statický text se klasifikátory vcelku osvˇedˇcily (úspˇeˇsnost aˇz 90,7 %), avˇsak pˇri pouˇzit´ı k rozpoznán´ı volného textu nedosáhly uspokojivých výsledk˚u a autoˇri na závˇer pˇripouˇstˇej´ı, ˇze k analýze dynamického textu je potˇreba pˇrij´ıt s novými metodami.

Dowland a Furnell Mezi dalˇs´ı práce, zabývaj´ıc´ı se analýzou volného textu, patˇr´ı stu-die [14], která sv˚uj pˇr´ıstup vybudovala na pˇredchoz´ım výzkumu délky trván´ı di-graf˚u.

´

Uvodn´ı práce vyuˇz´ıvala testovac´ı datový soubor poskytnutý deseti uˇzivateli. K analýze byly vyuˇzity pouze di-grafy, které splˇnovaly následuj´ıc´ı podm´ınky: Pokud byla délka je-jich trván´ı menˇs´ı neˇz 40 milisekund nebo vˇetˇs´ı neˇz 750 milisekund, byl takový di-graf odstranˇen, u zbývaj´ıc´ıch totoˇzných di-graf˚u byla zpr˚umˇerována jejich délka trván´ı a pokud byla smˇerodatná odchylka vˇetˇs´ı neˇz pr˚umˇerná doba jejich trván´ı, bylo odstranˇeno 10 % nejdelˇs´ıch i nejkratˇs´ıch di-graf˚u a pr˚umˇerná hodnota znovu spoˇc´ıtána. Pokud se di-graf vyskytl ve vzorku ménˇe neˇz 50krát, byl odstranˇen.

Ke klasifikaci vzorku byl pouˇzit podobný pˇr´ıstup jako byl pouˇzit autory Umphress a Williams 3.4, výsledkem této pˇr´ıpravné studie bylo, ˇze ke spolehlivému rozpoznán´ı osob je tˇreba delˇs´ıch vzork˚u a k ovˇeˇren´ı metod reprezentativnˇejˇs´ı vzorek uˇzivatel˚u.

V navazuj´ıc´ı práci [14] proto autoˇri shromáˇzdili datový soubor obsahuj´ıc´ı okolo 3,5 mi-lionu stisk˚u kláves od 35 uˇzivatel˚u. Sn´ımán´ı uˇzivatele bylo celosystémové, to tedy znamená, ˇ

ze vzorky mohou m´ıt vˇetˇs´ı variaci. Pro filtraci uˇziteˇcných di-graf˚u byla tentokrát zvolena niˇzˇs´ı hodnota 10 milisekund, jinak z˚ustaly jak filtry tak algoritmus k vyhodnocován´ı stejné.

(14)

Autoˇri prezentuj´ı experimenty s tri-grafy a délkami trván´ı celých slov, avˇsak s výraznˇe horˇs´ımi výsledky. Dalˇs´ı experimenty byly zamˇeˇreny na stanoven´ı ideáln´ı hodnoty ˇcinitele (t) standardn´ı odchylky. Nejlepˇs´ı výsledky byly dosaˇzeny s hodnotou t = 0,7.

S t´ımto bylo zafixováno FRR na 0 % a bylo dosaˇzeno FAR 4,9 %. Po odstranˇen´ı pˇeti nej-horˇs´ıch uˇzivatel˚u, kteˇr´ı mˇeli nekonzistentn´ı styl psan´ı, bylo dosaˇzeno FAR 1,7 %. V návrz´ıch k dalˇs´ım prac´ım uvádˇej´ı autoˇri moˇznost kombinace r˚uzných metrik jako napˇr´ıklad di-graf˚u a tri-graf˚u.

Nisenson a kolektiv V textu [15] je popsáno pouˇzit´ı algoritmu LZ78, který byl p˚uvodnˇe navrhnut ke kompresi dat. Ten autoˇri upravili pro verifikaci pisatele na základˇe dynamiky stisku kláves pˇri psan´ı volného textu. Jejich datový soubor tvoˇrily záznamy od pˇeti uˇzivatel˚u a 30 útoˇcn´ık˚u. Texty uˇzivatel˚u byly obecnˇe delˇs´ı neˇz útoˇcn´ık˚u a byly to otevˇrené odpovˇedi na otázky typu

”Jak ses dneska mˇel?“ a pˇrepis statického textu. Pr˚umˇerná délka uˇzivatelova sn´ımaného textu byla 2556 stisk˚u kláves a útoˇcn´ıkova 660 stisk˚u kláves. Je tˇreba zd˚uraznit, ˇ

ze vˇsechna data kaˇzdého uˇzivatele byla z´ıskána z jediného sezen´ı. ˇCasové prodlevy mezi stisky ˇci uvolnˇen´ımi kláves byly kvantovány pomoc´ı shlukován´ı za úˇcelem dosaˇzen´ı diskre-tizace a omezen´ı moˇznost´ı hodnot proudu událost´ı. Tento proud událost´ı je definován ve tvaru u1, δ1, u2, δ2, · · · , un, δn, kde ui je stisknut´ı nebo uvolnˇen´ı klávesy a δi je

kvantizo-vaná ˇcasová prodleva mezi následuj´ıc´ımi událostmi. u1 i δ1 m˚uˇzeme povaˇzovat za symboly

pˇredané klasifikátoru zaloˇzeném na LZ78, který pomoc´ı tohoto proudu dat vytvoˇr´ı váhovaný strom a takto je klasifikátor natrénován. Klasifikátor je poté podle pˇredloˇzeného nového symbolu a kontextu, kde se symbol objevil, schopen pˇredpovˇedˇet pravdˇepodobnost výskytu tohoto symbolu. Pomoc´ı pˇredpovˇedi jednoho symbolu lze samozˇrejmˇe pˇredpovˇedˇet i celý vzorek.

Autoˇri dos´ahli s t´ımto klasifik´atorem pˇri verifikaci FRR 5,25 % a FAR 1,13 %.

Gunetti a kolektiv V práci [16] autoˇri pˇredstavuj´ı nový pˇr´ıstup vyuˇz´ıvaj´ıc´ı délky trván´ı n-graf˚u pro autentizaci osob na základˇe psan´ı stylu statického textu. Vzdálenost mezi vzorky je pouze poˇc´ıtána na základˇe relativn´ıch ˇcasových údaj˚u. D´ıky tomuto pˇr´ıstupu je uˇzivatel rozpoznán i v pˇr´ıpadˇe, ˇze se nacház´ı v jiném psychologickém rozpoloˇzen´ı neˇz byl pˇri vytváˇren´ı profilu.

V navazuj´ıc´ı práci [8], zabývaj´ıc´ı se autentizac´ı na základˇe dynamiky stisku kláves volného textu, autoˇri pˇredchoz´ı metriku znaˇc´ı jako

”R“ (relativn´ı) a zav´adˇej´ı dalˇs´ı met-riku

”A“ (absolutn´ı). Tyto metriky lze nav´ıc urˇcit pro r˚uzn´e n-grafy (di-grafy, tri-grafy i tetra-grafy) a v´ysledky kombinovat.

Autoˇri bˇehem ˇsesti mˇes´ıc˚u shromáˇzdili datový soubor skládaj´ıc´ı se z 15 sezen´ı od 40 jedinc˚u a jednoho sezen´ı od 165 osob. Jedinci s v´ıce sezen´ımi jsou povaˇzováni za uˇzivatele systému a osoby s jediným sezen´ım za útoˇcn´ıky. Vˇsechny vzorky byly napsány v italˇstinˇe a ˇzádné dvˇe sezen´ı od jednoho uˇzivatele nebyly napsány v týˇz den. Úˇcastn´ıci experimentu mˇeli pˇredst´ırat psan´ı emailu a psát libovolný text. Na tomto datovém souboru bylo za pomoci tohoto algoritmu dosaˇzeno FRR 0,03 % a FAR 3,1 % pˇri verifikaci.

Detailnˇejˇs´ı popis této metody bude v následuj´ıc´ı ˇcásti.

Shimshon a kolektiv

V práci [6] se autoˇri zamˇeˇrili na kontinuáln´ı verifikaci uˇzivatele pomoc´ı co nejmenˇs´ıho vzorku. Pˇredpokladem pro vytvoˇren´ı uˇzivatelského profilu je dostateˇcnˇe dlouhý záznam

(15)

z uˇzivatelského sezen´ı a jakýkoliv pokus o zkrácen´ı fáze vytváˇren´ı profilu vede k neko-rektn´ımu vyhodnocován´ı v budoucnosti. Jejich metoda je rozdˇelena na dvˇe fáze – natr´ eno-ván´ı a verifikaci.

V trénovac´ı ˇcásti je postaven verifikaˇcn´ı model obsahuj´ıc´ı v´ıcetˇr´ıdn´ı klasifikátor a ma-povac´ı funkci na základˇe vˇsech jeho sezen´ı. Jak klasifikátor tak mapovac´ı funkce jsou pro kaˇzdého uˇzivatele unikátn´ı. Doby trván´ı stejných n-graf˚u z´ıskaných z trénovac´ıch sezen´ı jsou pr˚umˇerovány a tak je vytvoˇren vˇzdy jeden reprezentuj´ıc´ı profilový n-graf. Tyto hodnoty jsou následnˇe shlukovány na podobné n-grafy. Výstupem shlukován´ı je mapovac´ı funkce mapuj´ıc´ı n-graf obsaˇzený v profilu na konkrétn´ı shluk. Poté je natrénován klasifikátor na základˇe vektor˚u pˇr´ıznak˚u z´ıskaných z trénovac´ıch sezen´ı uˇzivatele.

Ve verifikaˇcn´ı fázi je z uˇzivatelova sezen´ı z´ıskán vektor pˇr´ıznak˚u pomoc´ı mapovac´ı funkce a ten pˇredloˇzen klasifikátoru k verifikaci. Výstupem klasifikátoru je vektor pravdˇepodobnost´ı (pa, pb, · · · , pz). Pravdˇepodobnost pn je pravdˇepodobnost´ı, ˇze vzorek patˇr´ı uˇzivateli n. Pro

´

uspˇeˇsnou verifikaci mus´ı být sezen´ı klasifikováno jako uˇzivatelovo a nav´ıc pravdˇepodobnost pn mus´ı pˇresáhnout práh t.

Autoˇri experimentuj´ı s vybudován´ım v´ıce klasifikátor˚u ze stejných uˇzivatelských se-zen´ı, liˇs´ıc´ıch se pouze v poˇctu shluk˚u, na které je provedeno shlukován´ı. Takovýto sloˇzený klasifikátor poté zpr˚umˇeruje pravdˇepodobnosti d´ılˇc´ıch klasifikátor˚u.

K otestován´ı tohoto algoritmu autoˇri vyuˇzili ˇcást datového souboru od Gunettiho a kolektivu 3.4, která obsahovala 21 uˇzivatel˚u a 165 útoˇcn´ık˚u, a dosáhli pˇri pouˇzit´ı sloˇzeného klasifikátoru FAR 3,47 % a FRR 0 % pˇri pouˇzit´ı textu o délce pouhých 250 úhoz˚u. Pˇri plné délce textu bylo samozˇrejmˇe dosaˇzeno jeˇstˇe lepˇs´ıch výsledk˚u.

3.5 Metoda Gunettiho a Picardiov´

e

Tato ˇcást se hloubˇeji zabývá metodou autor˚u Gunettiho a Picardiové pro analýzu dy-namického textu, pˇredstavenou v prac´ıch [16] a [8]. Autoˇri uvaˇzuj´ı jako pˇr´ıznak pouze dobu trván´ı n-grafu (flight time), avˇsak na konci je uvedeno rozˇs´ıˇren´ı, kde je tato metoda do-plnˇena o pˇr´ıznak délky mezi stiskem a uvolnˇen´ım jedné klávesy (dwell time) dle práce [7].

Jako modelový pˇr´ıklad, se kterým budeme pracovat v dalˇs´ı ˇcásti tohoto textu, uvaˇzujme situaci, kdy byla napsána dvˇe slova – vzdálenosti a události. ˇC´ısla pˇred p´ısmeny reprezentuj´ı ˇ

cas, kdy byly pˇr´ısluˇsné klávesy stisknuty, v milisekundách:

S1: 0 v 120 z 250 d 370 ´a 495 l 680 e 805 n 995 o 1045 s 1206 t 1267 i S2: 0 u 155 d 255 ´a 325 l 450 o 564 s 704 t 801 i

Autoˇri pˇredstavuj´ı dvˇe tˇr´ıdy mˇeˇren´ı, kter´e se snaˇz´ı zohlednit r˚uzn´e aspekty podobnost´ı a rozd´ılnost´ı pˇri psan´ı –

”R“ a”A“ hodnoty. Na modelov´em pˇr´ıkladˇe uk´aˇzeme jak je spoˇc´ıtat.

”R“ metrika

V pr´aci [16] byla pˇredstavena

”R“ metrika, pomoc´ı které je moˇzno analyzovat statický text. Jde o relativn´ı hodnotu podobnosti dvou napsaných vzork˚u. V navazuj´ıc´ı práci [8] autoˇri tuto myˇslenku rozˇs´ıˇrili a pouˇz´ıvaj´ı ji nejen pro analýzu statického textu, ale také pro analýzu textu volného. Pˇri pouˇzit´ı

”R“ metriky je respektován psychický i fyzický stav zkoumaného ˇclovˇeka. Hodnota

(16)

M´ıra neuspoˇr´adanosti

Mˇejme dáno pole P o N prvc´ıch. M´ıra neuspoˇrádanosti (pˇreloˇzeno z anglického degree of disorder nebo jen disorder ) pole P v˚uˇci uspoˇrádanému poli P0 m˚uˇze být spoˇc´ıtána jako souˇcet vzdálenost´ı mezi pozic´ı prvk˚u v P a stejných prvk˚u v P0.

Pˇr´ıklad Mˇejme napˇr´ıklad pole P = [2, 5, 3, 4, 1], pˇriˇcemˇz m´ıra jeho neuspoˇrádanosti v˚uˇci uspoˇrádanému poli P0 = [1, 2, 3, 4, 5] je 1 + 3 + 0 + 0 + 4 = 8.

Pokud je pole P seˇrazené, má m´ıru neuspoˇrádanosti rovnou nule. Naopak maximáln´ı m´ıra neuspoˇrádanosti pole P nastane, jestliˇze budou jednotlivé prvky seˇrazené v opaˇcném poˇrad´ı. Maximáln´ı m´ıru neuspoˇrádanosti pole P lze spoˇc´ıtat jako |P |₂2, pokud bude |P | sudé, a |P |2₂−1 pro |P | liché.

Z praktických d˚uvod˚u je vhodné pracovat s normalizovanou m´ırou neuspoˇrádanosti. Tu lze spoˇc´ıtat podˇelen´ım m´ıry neuspoˇrádanosti maximáln´ı hodnotou m´ıry neuspoˇrádanosti pro pole o stejném poˇctu prvk˚u. Tato hodnota je z intervalu h0; 1i. D´ıky tomu lze porovnávat m´ıry neuspoˇrádanosti pol´ı s r˚uznými poˇcty prvk˚u.

Pˇr´ıklad Normalizovan´a m´ıra neuspoˇr´adanosti pole P = [2, 5, 3, 4, 1] bude odpov´ıdat hodnotˇe ₅₂₋₁8

2

= 0,666.

Uvaˇzujme dva vzorky V1 a V2 pro dané n, reprezentované seˇrazenými poli dle délky

jejich n-graf˚u, V1 napˇr´ıklad jako referenˇcn´ı uspoˇr´adan´e pole reprezentuj´ıc´ı profil uˇzivatele.

Vzdálenost mezi tˇemito napsanými vzorky vzhledem k n-graf˚um, které sd´ıl´ı, oznaˇc´ıme jako Rn(V1, V2). Tuto vzdálenost m˚uˇzeme spoˇc´ıtat jako normalizovanou m´ıru neuspoˇrádanosti

V1 v˚uˇci V2. Je zˇrejm´e, ˇze vzd´alenost Rn(V1, V2) = Rn(V2, V1).

Nelze pˇredpokládat, ˇze délka trván´ı n-grafu bude vˇzdy konstantn´ı. Variaci ovlivˇnuje jak stav pisatele tak kontext, ve kterém je n-graf napsán. Tento kontext lze obsáhnout kombinac´ı r˚uzných n. Proto je pro urˇcen´ı vzdálenosti moˇzné spoˇc´ıtat jak vzdálenost pro n = 2, tedy R2(V1, V2), tak pro n = 3 analogicky R3(V1, V2). Autoˇri v práci [8] kombinuj´ı

tyto výsledky pomoc´ı jednoduchého váhován´ı. Pokud dva vzorky V1 a V2 sd´ıl´ı N n-graf˚u a

M m-graf˚u za podm´ınky, ˇze plat´ı N > M , lze kumulativn´ı vzd´alenost Rn,m spoˇc´ıtat jako:

Rn,m(V1, V2) = Rn(V1, V2) + Rm(V1, V2) · M/N (3.1)

Obdobnˇe kumulativn´ı vzd´alenost Rn,m,p, pro kterou plat´ı N > M a N > P , lze vyj´adˇrit

jako:

Rn,m,p(V1, V2) = Rn(V1, V2) + Rm(V1, V2) · M/N + Rp(V1, V2) · P/N (3.2)

kde P je poˇctem sd´ılen´ych p-graf˚u mezi vzorky V1 a V2.

Pˇr´ıklad K výpoˇctu vzdálenosti R2(S1, S2) mus´ıme nejprve stanovit, které di-grafy sd´ıl´ı

S1 a S2, a poté spoˇc´ıtat tuto vzdálenost, jak je zobrazeno na obrázku 3.2:

R2(S1, S2) =

(2 + 1 + 1 + 0 + 0)

12 = 0,333

(17)

Obrázek 3.2: Výpoˇcet vzdálenost´ı mezi slovy vzdálenosti a události za pouˇzit´ı di-graf˚u. Zdroj: vlastn´ı práce autora na základˇe [8]

R3(S1, S2) =

1 + 1 + 0

8 = 0,5

Obrázek 3.3: Výpoˇcet vzdálenost´ı mezi slovy vzdálenosti a události za pouˇzit´ı tri-graf˚u. Zdroj: vlastn´ı práce autora na základˇe [8]

Za povˇsimnut´ı stoj´ı, ˇze vzorky S1 a S2 sd´ıl´ı i jeden tetra-graf. Protoˇze je pouze jeden,

nem´a smysl poˇc´ıtat

”R“ hodnotu – ta by vyˇsla vˇzdy rovna nule. Výpoˇcet ”R“ hodnoty má význam pouze pokud dva vzorky sd´ıl´ı v´ıce neˇz jeden n-graf.

Kumulativn´ı vzd´alenost dle vztahu 3.1:

R2,3 = 0,333 + 0,5 · 3/5 = 0,633

Dle [7] je tato metoda v´ahov´an´ı (vztahy 3.1, 3.2) korektn´ı pouze dokud se nesnaˇz´ıme pouˇz´ıvat metriky

”A“ a ”R“ s r˚uzn´ymi kombinacemi n. V takov´em pˇr´ıpadˇe je vhodnˇejˇs´ı pouˇz´ıt vztahy: Rn,m(V1, V2) = Rn(V1, V2) · N + Rm(V1, V2) N + M (3.3) Rn,m,p(V1, V2) = Rn(V1, V2) · N + Rm(V1, V2) · M + Rp(V1, V2) · P N + M + P (3.4)

(18)

”A“ metrika

Pˇrestoˇze pˇri pouˇzit´ı samotn´e

”R“ metriky lze dosáhnout dobrých výsledk˚u, je nutné si uvˇedomit jisté nedostatky. Uvaˇzujme vzorek V1 s di-grafy a vzorek V2 s di-grafy, pˇriˇcemˇz

délka trván´ı kaˇzdého z nich je dvojnásobná v˚uˇci odpov´ıdaj´ıc´ım ve vzorku V1. Poté je

vzd´alenost R2(V1, V2) = 0, a proto je tˇreba zav´est dalˇs´ı metriku, zohledˇnuj´ıc´ı absolutn´ı

hodnoty d´elek trv´an´ı n-graf˚u.

O n-grafech G1 a G2 s jejich dobami trván´ı dg1 a dg2 pˇri stejném n prohlás´ıme, ˇze jsou

si podobn´e, pokud splˇnuj´ı podm´ınku:

1 < max(dg1, dg2)

min(dg1, dg2)

≤ t (3.5)

kde pro konstantu t plat´ı t > 1. Vzd´alenost

”A“ vzork˚u V1 a V2 v˚uˇci n-graf˚um, kter´e maj´ı spoleˇcn´e, a konstantˇe t definujeme jako:

At_n(V1, V2) = 1 −

Pt(V1, V2)

S(V1, V2)

(3.6) kde Pt_(V

1, V2) je poˇctem podobn´ych n-graf˚u mezi V1 a V2. S(V1, V2) je oproti tomu poˇctem

vˇsech n-graf˚u, které vzorky V1 a V2 sd´ıl´ı. Je zˇrejmé, ˇze Atnm˚uˇze nabývat hodnoty z intervalu

h0; 1i.

Autoˇri neuvaˇzuj´ı smˇerodatnou odchylku a od˚uvodˇnuj´ı to z´ıskanou moˇznost´ı spoˇc´ıtat ”A“ hodnoty i pro n-grafy, kter´e jsou ve vzorc´ıch obsaˇzeny pouze jednou.

Z´asadn´ı pro vztah 3.6 je volba vhodn´e hodnoty t jako hranice pro urˇcen´ı podobnosti dvou n-graf˚u, autoˇri po nˇekolika experimentech doporuˇcuj´ı pracovat s hodnotou t = 1,25. Pˇr´ıklad Pro vzorky S1 a S2 m˚uˇzeme spoˇc´ıtat hodnotu A1,252 jako:

S1 S2 120 dá 100 120/100 = 1,20 podobné 125 ál 70 125/70 = 1,78 150 os 114 150/114 = 1,31 161 st 140 161/140 = 1,15 podobné 61 ti 97 97/61 = 1,59

A1,25₂ = 1 − 2₅ = 0,6. Podobn´ym zp˚usobem m˚uˇzeme vypoˇc´ıtat A1,25₃ a na rozd´ıl od ”R“ hodnoty i A1,25₄ .

Kumulativn´ı vzd´alenosti

”A“ mezi vzorky V1 a V2 definujeme stejn´ym zp˚usobem jako u

”R“ hodnoty.

Vyhodnocen´ı metody

Autoˇri v [8] ukazuj´ı rozd´ıln´e pˇr´ıstupy ke klasifikaci, verifikaci a identifikaci jedince. Klasifikace Uvaˇzujme mnoˇzinu uˇzivatel˚u syst´emu U , dva vzorky V1 a V2 spolu s vzd´

ale-nostmi mezi tˇemito vzorky d(V1, V2), pro kterou plat´ı, ˇze d(V1, V2) ≥ 0. Pokud se snaˇz´ıme

(19)

Tabulka 3.1: V´ysledky klasifikace dle metody od autor˚u Gunettiho a Picardiov´e, celkem 600 pokus˚u o klasifikaci. Zdroj: [8]

Pouˇzit´ı

”R“ vzd´alenosti Pouˇzit´ı”A“ vzd´alenosti

Mˇeˇren´a vzd´al. R2 R3 R2,3 R2,4 R2,3,4 A2 A3 A2,3 A2,4 A2,3,4

Poˇcet chyb 13 44 5 9 9 44 84 41 39 41

Chybovost [%] 2,16 7,33 0,83 1,5 1,5 7,33 14,0 6,83 6,5 6,83

Pouˇzit´ı kombinac´ı

”R“ a”A“ vzd´alenost´ı

Mˇeˇren´a vzd´al. R2+ A2,3 R2,3+ A2 R2,3+ A2,3 R2,3,4+ A2 R2,3,4+ A2,3

Poˇcet chyb 4 2 4 2 1

Chybovost [%] 0,66 0,33 0,66 0,33 0,16

pr˚umˇernou vzd´alenost (oznaˇcovanou jako md z anglick´eho mean distance) tˇechto vzork˚u v˚uˇci vzorku X spoˇc´ıtat jako:

md(A, X) = 1 n· n X i=1 d(Ai, X)

Tuto vzdálenost vypoˇcteme pro vˇsechny uˇzivatele v systému a uˇzivatel s nejmenˇs´ı vzdálenost´ı md je prohláˇsen za autora vzorku X.

Nejlepˇs´ı výsledky aplikace r˚uzných vzdálenost´ı pouˇzitých ke klasifikaci je znázornˇena v tabulce 3.1.

Verifikace Mˇejme jedince, který o sobˇe tvrd´ı, ˇze je uˇzivatelem A, a poskytl vzorek X. Pro úspˇeˇsnou verifikaci mus´ı být splnˇeny tyto podm´ınky:

1. vzorek X je klasifikov´an jako vzorek uˇzivatele A,

2. vzorek X je dostateˇcnˇe podobn´y vzork˚um profilu uˇzivatele A.

Abychom mohli urˇcit, který vzorek je dostateˇcnˇe podobný, definujme stˇredn´ı vzdálenost vzork˚u profilu A1, A2, A3, · · · , Anuˇzivatele A jako

m(A) = 1 n · (n − 1) · n−1 X i=1 n X j=i+1 md(Ai, Aj)

Vzorek X je dostateˇcnˇe podobn´y profilov´ym vzork˚um uˇzivatele A, pokud plat´ı:

md(A, X) < m(A) ∨ ∀B ∈ U − {A} : md(A, X) − m(A) < md(B, X) − md(A, X) Obˇe tyto podm´ınky lze vyj´adˇrit pomoc´ı jedin´e:

md(A, X) < m(A) + 0,5 · (md(B, X) − m(A))

Je vhodné poznamenat, ˇze i pˇri verifikaci, kdy uˇzivatel tvrd´ı, ˇze je uˇzivatelem A, a snaˇz´ı se toto tvrzen´ı doloˇzit vzorkem X, jsou vyuˇz´ıvány porovnán´ı s profily jiných uˇzivatel˚u. Takovýto systém je tedy bezpeˇcnˇejˇs´ı s nar˚ustaj´ıc´ım poˇctem uˇzivatel˚u, avˇsak pˇri jejich niˇzˇs´ım poˇctu nedosahuje tak dobrých výsledk˚u.

Nejlepˇs´ı ˇci nejzaj´ımavˇejˇs´ı výsledky r˚uzných aplikovaných vzdálenost´ı pouˇzitých k veri-fikaci jsou znázornˇeny v tabulce 3.2.

(20)

Tabulka 3.2: Výsledky verifikace dle metody od autor˚u Gunettiho a Picardiové, celkem 450 600 pokus˚u o verifikaci, z toho 600 o oprávnˇenou. Zdroj: [8]

Pouˇzit´ı

”R“ vzd´alenosti Pouˇzit´ı”A“ vzd´alenosti

Mˇeˇren´a vzd´alenost R2 R2,3 R2,4 R2,3,4 A2 A2,3 A2,4 A2,3,4

Chybn´a pˇrijet´ı 563 324 279 199 590 335 366 331

Chybn´a odm´ıtnut´ı 50 32 41 41 92 80 84 79

FAR [%] 0,125 0,072 0,062 0,044 0,131 0,074 0,081 0,073

FRR [%] 8,333 5,333 6,833 6,833 15,33 13,33 14,0 13,16

Pouˇzit´ı kombinac´ı

”R“ a”A“ vzd´alenost´ı

Mˇeˇren´a vzd´alenost R2+ A2 R2,3+ A2,3 R2,3,4+ A2 R2,3,4+ A2,3

Chybn´a pˇrijet´ı 360 205 124 78

Chybn´a odm´ıtnut´ı 36 24 19 23

FAR [%] 0,08 0,045 0,027 0,017

FRR [%] 6,0 4,0 3,166 3,83

Identifikace Verifikace popsan´a v pˇredchoz´ı ˇc´asti se od identifikace liˇs´ı jen v reformulaci a generalizaci pravidel.

Vzorek X je identifikován jako vzorek autora A, jestliˇze plat´ı následuj´ıc´ı podm´ınka: ∃A ∈ U : ∀B ∈ U −{A} : md(A, X) < md(B, X)∧md(A, X) < m(A)+k·(md(B, X)−m(A)) kde k je konstanta, která byla ve verifikaci rovna 0,5. Pokud ˇzádný uˇzivatel A, který by tuto podm´ınku splˇnoval, neexistuje, je vzorek X prohláˇsen za neznámý. Identifikace a ve-rifikace jsou v tomto pˇr´ıpadˇe zamˇenitelné, a proto dosahuj´ı stejných výsledk˚u, jaké jsou prezentovány v tabulce 3.2.

Modifikace metody

Autoˇri Gunetti a Picardiová se domn´ıvaj´ı, ˇze nen´ı potˇreba vyuˇz´ıvat metriku spojenou s dwell time (ˇcasem mezi stiskem a uvolnˇen´ım jedné klávesy). Ta je dle nich obsaˇzena v di-grafech. Ve ˇclánku [10] se vˇsak na základˇe experimentu autor domn´ıvá, ˇze s pouˇzit´ım dwell time je systém silnˇejˇs´ı. To potvrzuje i práce [7], ve které autor implementoval metodu Gunettiho a Picardiové a rozˇs´ıˇril mnoˇzinu pouˇz´ıvaných n-graf˚u o n = 1. Jde tedy o délku trván´ı mono-grafu – dwell time. S t´ımto rozˇs´ıˇren´ım bylo dosaˇzeno lepˇs´ıch výsledk˚u neˇz bez nˇeho.

Je otázkou, nakolik ovlivˇnuje délku mezi stiskem a uvolnˇen´ım klávesy pouˇzitá klávesnice. Autoˇri z´ıskávaj´ı své datové soubory, na kterých experimentuj´ı, pˇreváˇznˇe z webových for-muláˇr˚u – lze tedy pˇredpokládat, ˇze kaˇzdý úˇcastn´ık experimentu psal na své vlastn´ı klávesnici. Bylo by zaj´ımavé zjistit, zda je délka trván´ı mono-graf˚u závislá na pouˇzité klávesnici.

(21)

Kapitola 4

N´

avrh a implementace

Pˇred samotným návrhem aplikace, která byla nazvána SecBioard, je tˇreba rozˇs´ıˇrit strohé zadán´ı práce a definovat poˇzadovanou funkcionalitu systému. Proto budou na úvod této kapitoly uvedeny mnou definované poˇzadavky na systém. V dalˇs´ı ˇcásti bude pˇredstaven výbˇer algoritm˚u pro ˇreˇsen´ı d´ılˇc´ıch problém˚u a návrh architektury aplikace. Následuje výˇcet pouˇzitých technologi´ı a kapitolu uzav´ıraj´ı d˚uleˇzité rysy implementace.

4.1 Poˇ

zadavky na aplikaci

Jak vyplývá ze zadán´ı, aplikace má za úkol verifikovat uˇzivatele podle dynamiky stisku kláves pˇri pouˇzit´ı bˇeˇzné klávesnice bez dalˇs´ıho speciáln´ıho vybaven´ı. Pˇred samotným na-vrˇzen´ım systému je tˇreba toto zadán´ı rozˇs´ıˇrit. Na aplikaci jsou tedy kladeny tyto nároky, které jsou sjednocen´ım zadán´ı a následuj´ıc´ıch úvah:

1. Aplikace bude pr˚ubˇeˇznˇe verifikovat uˇzivatele na základˇe dynamiky stisku kláves bˇeˇzné klávesnice,

2. bude spustiteln´a pod operaˇcn´ım syst´emem GNU/Linux,

3. bude sn´ımat stisky kláves celosystémovˇe, nikoli rozliˇsovat mezi právˇe vyuˇz´ıvanými aplikacemi,

4. bude verifikovat pouze lokálnˇe pˇrihláˇsené uˇzivatele,

5. umoˇzn´ı podporu fast user switching (uˇzivatel´e mohou pˇrep´ınat mezi uˇzivatelsk´ymi ´

uˇcty bez nutnosti ukonˇcen´ı aplikac´ı a odhl´aˇsen´ı se),

6. bude podporovat moˇznost zamknut´ı sezen´ı v pˇr´ıpadˇe útoku. 7. Zmˇeny bude moci provádˇet pouze administrátor.

8. Zmˇeny týkaj´ıc´ı se uˇzivatelova profilu bude moci provádˇet pouze uˇzivatel sám po ˇrádné autentizaci.

9. Aplikace bude sekundárnˇe pracovat i jako keylogger (program pro zaznamenáván´ı stisk˚u kláves).

10. Uˇzivatel si bude moci vybrat, zda tuto bezpeˇcnost´ı aplikaci vyuˇzije, avˇsak zazna-menáván´ı kláves neovlivn´ı.

(22)

4.2 N´

avrh aplikace

Na základˇe poˇzadavk˚u na aplikaci bylo potˇreba navrhnout systém. Mezi zásadn´ı ˇcásti návrhu patˇr´ı výbˇer algoritm˚u.

Algoritmus pro verifikaci na z´akladˇe dynamiky stisku kl´aves

Mezi nejd˚uleˇzitˇejˇs´ı rozhodnut´ı patˇr´ı zvolen´ı algoritmu pro verifikaci na základˇe dynamiky stisku kláves. Ideáln´ı algoritmus pro naˇsi aplikaci má co nejniˇzˇs´ı úrovnˇe FRR i FAR, nen´ı ˇ

casovˇe nároˇcný pˇri pˇridán´ı nového uˇzivatele do systému a jeho s´ıla je nezávislá na poˇctu uˇzivatel˚u v systému.

Pˇrestoˇze výsledky metody Shimshona a kolektivu popsané v 3.4 jsou nejlepˇs´ı, byla zvolena metoda Gunettiho a Picardiové 3.5 s rozˇs´ıˇren´ım dwell time pro jej´ı originalitu v pˇr´ıstupu i ovˇeˇrenost na v´ıce datových souborech [3, 8, 7], kde dosahuje vysoké úspˇeˇsnosti pˇri rozpoznán´ı jedince. Existence metriky

”R“, zohledˇnuj´ıc´ı relativn´ı rychlost psan´ı, je podle mne v celosystémové aplikaci verifikuj´ıc´ı uˇzivatele pomoc´ı dynamiky stisku kláves zcela zásadn´ı. Nav´ıc je ˇcasovˇe i výpoˇcetnˇe nenároˇcná pˇri pˇridáván´ı nového uˇzivatele. Nevýhodou je pˇr´ımá úmˇera mezi poˇctem uˇzivatel˚u v systému a silou systému a dokonce i sloˇzitost´ı vyhodnocen´ı vzorku, zavinˇená skuteˇcnost´ı, ˇze p˚uvodn´ı algoritmus vyuˇz´ıvá pro porovnán´ı vzorku profily vˇsech uˇzivatel˚u. Tato technika se mi jevila jako nepˇrijatelná v obou extrémn´ıch pˇr´ıpadech. Pokud je v systému mnoho uˇzivatel˚u, vyhodnocen´ı vzorku by mohlo trvat velmi dlouhou dobu a t´ım zbyteˇcnˇe zatˇeˇzovat poˇc´ıtaˇc. Naopak pˇri opaˇcném extrému jediného uˇzivatele je celý algoritmus nepouˇzitelný. Bylo proto nutno celý algoritmus vyhodnocen´ı mo-difikovat pro kontinuáln´ı verifikaci a pro libovolný poˇcet uˇzivatel˚u. Modifikace vyuˇz´ıvaj´ıc´ı pˇri vyhodnocen´ı pouze profil uˇzivatele, jenˇz má být verifikován, bude popsána v následuj´ıc´ıch odstavc´ıch.

Vˇerohodnost uˇzivatele (nakolik aplikace vˇeˇr´ı, ˇze je u klávesnice právˇe pˇrihláˇsený lokáln´ı uˇzivatel) budeme oznaˇcovat skóre. Skóre m˚uˇze nabývat hodnot z intervalu h0, 1i, kde 1 znaˇc´ı naprostou jistotu, ˇze jde o legitimn´ıho uˇzivatele, zat´ımco 0 znaˇc´ı absolutn´ı jistotu, ˇze jde o útoˇcn´ıka. Po startu programu je skóre inicializováno na konstantu skorestart. Výstupem

porovn´an´ı vzorku s profilem uˇzivatele je jedna hodnota a to ˇc´ıslo 1₂·(Rm,n,p+Ax,y,z), urˇcuj´ıc´ı

vˇerohodnost jednoho vzorku. Tato hodnota je z intervalu h0, 1i, protoˇze Rm,n,p i Ax,y,z jsou

z intervalu h0, 1i. Hodnota výstupu porovnán´ı je pˇredána jako argument funkci w:

w(x) = sgn(x) ·pk · |x − m| (4.1)

kde funkce sgn je signum reálného ˇc´ısla, m ∈ (0, 1) je práh pro klasifikaci vzorku jako legitimn´ıho a k ∈ (0, 1i je koeficient urˇcuj´ıc´ı váhu zmˇeny v˚uˇci skóre. Tuto hodnotu w(x) dále pˇredáme jako argument rekurentn´ı funkci sn+1(w(x), sn), pomoc´ı které vypoˇcteme

novou hodnotu sk´ore:

sn+1(d, sn) =

d · (1 − sn), d ≥ 0

d · sn, d < 0 (4.2)

kde sn je minulá hodnota skóre. T´ımto je zaruˇceno, ˇze skóre bude vˇzdy z intervalu h0, 1i

a nav´ıc pˇr´ır˚ustky budou závislé na aktuáln´ım skóre.

Takto upravený algoritmus vyhodnocen´ı je moˇzno vyuˇz´ıt i pˇri pouhém jednom uˇzivateli. Výsledky systému, kde je aplikována tato modifikace, budou prezentovány dále.

Autoˇri p˚uvodn´ı metody tvrd´ı [8, str. 317], ˇze pokud se ve vzorku objev´ı dvakrát stejný n-graf, staˇc´ı jej reprezentovat jedn´ım, jehoˇz délka trván´ı bude pr˚umˇernou hodnotou vˇsech

(23)

d´ılˇc´ıch d´elek. Tento postup je podle mne korektn´ı do chv´ıle, kdy se n-grafy vyskytuj´ı rov-nomˇernˇe. Pokud by vˇsak ve vzorku bylo napˇr´ıklad 100 v´yskyt˚u n-grafu G1 a pouze jeden

výskyt n-grafu G2, bude m´ıt tento jediný n-graf G2 po zpr˚umˇerován´ı stejnou váhu jako

100 jiných, coˇz m˚uˇze vést k nechtˇeným výsledk˚um. Proto budou v následuj´ıc´ı kapitole vyzkouˇseny obˇe moˇznosti, jak s pr˚umˇerován´ım, tak bez pr˚umˇerován´ı délek trván´ı n-graf˚u.

Autoˇri pracuj´ı v kontextu

”A“ metriky s prahem t = 1,25 (ze vztahu 3.5), urˇcuj´ıc´ım, zda jsou si dva n-grafy podobné. Datový soubor autor˚u byl z´ıskán pˇri psan´ı email˚u, kdy lze oˇcekávat relativnˇe konstantn´ı rychlost psan´ı, kdeˇzto v aplikaci, která je celosystémová a nerozliˇsuje mezi psan´ım dlouhých text˚u pˇri psan´ı email˚u a krátkým napsán´ım adresy internetové stránky v prohl´ıˇzeˇci, je tˇreba být benevolentnˇejˇs´ı. Proto budou pˇri testován´ı uvaˇzovány i jiné hodnoty.

Pr˚ubˇeˇzn´a verifikace

Zp˚usob vyhodnocován´ı byl tedy vybrán, je vˇsak potˇreba jeˇstˇe definovat, jak bude provádˇena pr˚ubˇeˇzná verifikace. Pomoc´ı sekvence stisknut´ı a uvolnˇen´ı kláves je moˇzné ge-nerovat n-grafy. Tyto n-grafy jsou pr˚ubˇeˇznˇe generovány do vyrovnávac´ı pamˇeti s urˇcitou kapacitou (oznaˇcujme ji jako pamˇet’ pam s kapacitou kap). Pokud je tato kapacita kap dosaˇzena, je sada n-graf˚u uloˇzených ve vyrovnávac´ı pamˇeti vyhodnocena a následnˇe tyto n-grafy z pamˇeti odstranˇeny a naplˇnován´ı prob´ıhá znovu od zaˇcátku.

Pˇredstavme si vˇsak modelovou situaci, kdy uˇzivatel p´ıˇse na klávesnici a po skonˇcen´ı jeho práce je naplnˇena ˇcást pamˇeti. Poté odejde od poˇc´ıtaˇce a toho se zmocn´ı útoˇcn´ık, který nap´ıˇse pouze tolik textu, ˇze dopln´ı tuto pamˇet’ a je provedeno vyhodnocen´ı. Výsledek vyhodnocen´ı m˚uˇze být velmi r˚uznorodý a z hlediska korektnosti by nemˇel být do hodno-cen´ı zaˇrazen. Tento problém byl vyˇreˇsen pomoc´ı sledován´ı neˇcinnosti na klávesnici. Pokud na klávesnici nebyla provedena ˇzádná akce jiˇz Tf lush sekund, probˇehne vyhodnocen´ı pamˇeti

pam a jej´ı vyprázdnˇen´ı ihned. ˇCasová konstanta Tf lushreprezentuje ˇcasový interval mezi

od-chodem legitimn´ıho uˇzivatele a pˇr´ıchodem a následnou prac´ı útoˇcn´ıka. V r˚uzných pouˇzit´ıch se m˚uˇze tato hodnota liˇsit, proto by mˇela být parametrizovatelná.

Tato úprava sebou pˇrinesla jisté úskal´ı. M˚uˇze se stát, ˇze bude vyhodnocen i pouhý jediný n-graf a vyhodnocen´ı by mˇelo stejnou váhu jako vyhodnocen´ı celé naplnˇené vyrovnávac´ı pamˇeti. To je nepˇrijatelné. Je tedy vypoˇc´ıtána hodnota w(x) pomoc´ı vztahu 4.1 a tato hodnota je váhována w(x) · |pam|_kap , kde |pam| reprezentuje poˇcet n-graf˚u ve vyrovnávac´ı pamˇeti a kap je kapacita této pamˇeti.

Vˇetˇsina zde prezentovaných metod zabývaj´ıc´ıch se dynamikou stisku kláves pouˇz´ıvá velmi n´ızké prahové hodnoty za úˇcelem rozpoznán´ı di-grafu, který je outlier (napˇr. Down-land a Furnell – 750 ms), coˇz by dovolovalo útoˇcn´ıkovi psát rychlost´ı 1 úhoz za sekundu a pˇritom m´ıt jistotu neodhalen´ı. Tato rychlost psan´ı se jev´ı jako pˇr´ıliˇs vysoká, a proto jsou k identifikaci outlier˚u vyuˇzity hranice 40 ms a 5000 ms.

Profil a s´ıla profilu

Profil tvoˇr´ı mnoˇzina n-graf˚u, pro n ∈ {1, 2, 3, 4}. V profilu se nemohou vyskytovat stejné n-grafy s r˚uznými délkami trván´ı, nam´ısto toho jsou tyto stejné n-grafy reprezentovány jedn´ım n-grafem spoleˇcnˇe s pr˚umˇernou délkou trván´ı, smˇerodatnou odchylkou a ˇc´ıslem urˇcuj´ıc´ım kolik n-graf˚u je t´ımto jedn´ım reprezentováno.

Vytváˇren´ı profilu je ˇcasovˇe nároˇcná ˇcinnost, a proto by bylo vhodné vˇedˇet, kdy jiˇz staˇc´ı vytváˇren´ı zanechat. Proto je definována s´ıla profilu, která m˚uˇze nabývat hodnot z intervalu

(24)

h0, 1i, kde 0 oznaˇcuje prázdný profil, a 1 velmi silný profil.

N-graf je povaˇzován za dostateˇcnˇe silný, aby se pod´ılel na profilu, pokud reprezentuje alespoˇn Nminprof il stejných n-graf˚u a zároveˇn plat´ı podm´ınka 2 · σ < d, kde d je pr˚umˇerná

délka trván´ı n-grafu a σ je smˇerodatná odchylka.

S´ılu profilu S(Pn, n), kde Pn = {g1, g2, · · · , gz} je mnoˇzina siln´ych n-graf˚u tvoˇr´ıc´ıch

profil uˇzivatele pro dan´e n, je definov´ana jako: S(Pn, n) =

|Pn|

100 · (nM AX + 1 − n) (4.3)

kde nM AX = 4. S´ıla cel´eho profilu S(P ) je pak:

S(P ) = 1 4 4 X i=1 S(Pi, i) (4.4)

Z´ıskáván´ı informac´ı o stisknutých klávesách

Je nˇekolik moˇznost´ı jak zjistit, co se s klávesnic´ı dˇeje a tedy implementovat nástroj pro zaznamenáván´ı údaj˚u o stisknutých klávesách. Jednou z moˇznost´ı je napsat vlastn´ı obsluhu pˇreruˇsen´ı klávesnice. Události z klávesnice mohou být zachyceny na hardwarovém portu 0x60.

Dalˇs´ı moˇznost´ı je únos jedné z funkc´ı (handle scancode, put queue, receive buf, tty read, sys read) jádra operaˇcn´ıho systému, která je v ˇretˇezci zpracováván´ı kl´ avesni-cových událost´ı. Pˇri únosu funkc´ı dále v ˇretˇezci zpracován´ı je moˇzné dosáhnout sledován´ı jak lokáln´ıch tak vzdálených událost´ı klávesnice. [17]

K nejjednoduˇsˇs´ım zp˚usob˚um pracuj´ıc´ım vˇsak v uˇzivatelském prostoru je ˇcten´ı souboru /dev/input/eventX reprezentuj´ıc´ıho klávesnici. Tento soubor je tvoˇren rozhran´ım evdevu [18] z událost´ı generovaných v jádˇre operaˇcn´ıho systému. Obsah tohoto souboru je tvoˇren strukturami struct input event reprezentuj´ıc´ı jedinou událost a obsahuje ˇctyˇri poloˇzky: struct timeval time urˇcuj´ıc´ı ˇcas uskuteˇcnˇen´ı událost´ı, unsigned short type popisuj´ıc´ı typ události (napˇr. EV KEY pro událost klávesnice), unsigned short code znaˇc´ıc´ı, která klávesa byla stisknuta a unsigned int value vypov´ıdaj´ıc´ı o typu události (stlaˇcen´ı klávesy, uvolnˇen´ı klávesy, opakován´ı klávesy).

Kv˚uli jednoduchosti ˇreˇsen´ı byla zvolena posledn´ı zvolená varianta. Jej´ı nevýhodou ovˇsem je, ˇze nelze z´ıskat informace o stisknutých klávesách ve vzdálených sezen´ıch.

N´avrh architektury

Na základˇe poˇzadavk˚u na aplikaci a vybraných algoritm˚u byl vytvoˇren neformáln´ı dia-gram 4.1 zobrazuj´ıc´ı rozdˇelen´ı do subsystém˚u, jejich vzájemnou komunikaci a také um´ıstˇen´ı konkrétn´ıch ˇcást´ı vzhledem k operaˇcn´ımu systému. Program byl rozdˇelen do sedmi logických ˇ

cást´ı, krátce zde budou krátce popsány. Za zásadn´ı povaˇzuji ˇretˇezec sn´ımaˇc stisknutých kláves – filtry – generátor n-graf˚u – vyhodnocovac´ı logika pˇretváˇrej´ıc´ı klávesové události na pˇr´ıznaky.

Sn´ımaˇc stisknutých kláves C´ˇast maj´ıc´ı za úkol odst´ınit detaily sn´ıman´ı kláves dalˇs´ım ˇ

cástem aplikace. Zde bude provádˇeno také volitelné zaznamenáván´ı stisku kláves spoleˇcnˇe s ˇcasovými známkami.

(25)

Obrázek 4.1: Neformáln´ı návrh aplikace. Zdroj: vlastn´ı práce autora

Filtry Tento subsystém je navrˇzen pro zpracován´ı údaj˚u o stisknutých ˇci uvolnˇených klávesách spoleˇcnˇe s jejich ˇcasovými známkami. Má za úkol propustit dále do ˇretˇezce zpracován´ı pouze uˇziteˇcná data z´ıskaná ze sn´ımaˇce stisknutých kláves. Mus´ı se napˇr´ıklad vypoˇrádat s outliery ˇci s chybnˇe stisknutými klávesami, které uˇzivatel smaˇze pomoc´ı klávesy Backspace. Jako uˇziteˇcná data jsou povaˇzovány informace o stisknut´ı a uvolnˇen´ı kláves a-z, ostatn´ı funguj´ı jako oddˇelovaˇce. Data jsou ukládána do vyrovnávac´ı pamˇeti, dokud nen´ı zaslán oddˇelovaˇc, který zp˚usob´ı odeslán´ı dat generátoru n-graf˚u.

Generátor n-graf˚u Vzhledem k tomu, ˇze vˇetˇsina metod, zabývaj´ıc´ı se dynamikou stisku kláves, vyuˇz´ıvá k rozpoznáván´ı délky trván´ı n-graf˚u (ˇci jinak pojmenované ekvivalenty), je potˇreba m´ıt v systému komponentu, která sekvenci stisknutých a uvolnˇených kláves s ˇcasovými informacemi pˇrevede právˇe na n-grafy. Filtr sdruˇzuje klávesy, které byly stisk-nuty ihned po sobˇe, a z tˇechto sad sdruˇzených kláves jsou vygenerovány n-grafy, které jsou udrˇzovány ve vyrovnávac´ı pamˇeti, dokud nen´ı plná nebo nepˇrijde pˇr´ıkaz pro odeslán´ı dat od systémového správce. V takovém pˇr´ıpadˇe jsou data odeslána vyhodnocovac´ı logice. Profil Profil je abstrakce posb´ıraných informac´ı o uˇzivatelovˇe stylu psan´ı na klávesnici, uloˇzený na fyzickém médiu.

(26)

Vyhodnocovac´ı logika Tato ˇcást je vˇzdy informována o aktuálnˇe lokálnˇe pˇrihláˇseném uˇzivateli a dle této informace porovnává sadu n-graf˚u s profilem tohoto uˇzivatele. V pˇr´ıpadˇe, ˇ

ze se po vyhodnocen´ı nového vzorku domn´ıvá, ˇze jde o útok, informuje systémového správce, který provede pˇr´ısluˇsnou akci.

Systémový správce Tento subsystém obstarává veˇskerou komunikaci jak s operaˇcn´ım systémem (informace o tom, kdo je aktuálnˇe pˇrihláˇsený uˇzivatel, zamykán´ı sezen´ı) tak komunikaci s uˇzivatelskými klienty.

Uˇzivatelský klient Klient je samostatná aplikace, ne pˇr´ımo nutná k vlastn´ımu bˇehu a dávaj´ıc´ı uˇzivateli moˇznost spravovat sv˚uj profil. Kaˇzdý uˇzivatel spouˇst´ı vlastn´ı instanci tohoto programu.

N´avrh tˇr´ıd

Na základˇe neformáln´ıho návrhu zde bude pˇredstaveno mapován´ı jeho komponent na konkrétn´ı tˇr´ıdy. Vzhledem k tomu, ˇze je v návrhu ˇretˇezec zpracován´ı, byl vyuˇzit návrhový vzor Pozorovatel. Tento vzor se jevil vhodný kv˚uli moˇznosti implementovat tˇr´ıdy nezávisle na sobˇe a nav´ıc je tento pˇr´ıstup jednoduˇse rozˇsiˇritelný pˇridán´ım napˇr´ıklad dalˇs´ıho filtru do ˇretˇezce zpracován´ı. Dalˇs´ı výhodou je také moˇznost ˇretˇezec zpracován´ı rozdˇelit (zaregistrovat v´ıce Pozorovatel˚u u jednoho objektu) do v´ıce paraleln´ıch.

Tˇr´ıda Observer je tedy abstraktn´ı tˇr´ıdou pro objekty, které mohou pozorovat objekty jiné. Tˇr´ıda Observable je taktéˇz abstraktn´ı tˇr´ıdou pro objekty, které budou pozorované. Jak je z návrhu zˇrejmé, nˇekteré komponenty mohou být jak pozorovanými tak pozorova-teli. Proto byla navrˇzena dalˇs´ı abstraktn´ı tˇr´ıda ObserverAndObservable, která vyuˇz´ıvá v´ıcenásobné dˇediˇcnosti, konkrétnˇeji je potomkem tˇr´ıd Observer a Observable. Pro vˇetˇs´ı názornost byl vygenerován ˇcásteˇcný diagram tˇr´ıd 4.2 pomoc´ı programu Doxygen.

Obrázek 4.2: Diagram tˇr´ıd návrhového vzoru Pozorovatel. Zdroj: vlastn´ı práce autora

Sn´ımaˇc stisknutých kláves reprezentovaný tˇr´ıdou KeyScanner je prvn´ı v ˇretˇezci, a proto je potomkem pouze tˇr´ıdy Observable. Dalˇs´ımi tˇr´ıdami v ˇretˇezci jsou Filters a NGraphGe-nerator, oba jsou potomky abstraktn´ı tˇr´ıdy ObserverAndObservable. Posledn´ı Evaluator, který je potomkem Observer, reprezentuje vyhodnocuj´ıc´ı logiku. Systémový správce byl rozdˇelen do dvou tˇr´ıd – SystemManager a SecBioard. SystemManager zpracovává poˇ za-davky od klient˚u a sleduje zmˇeny v operaˇcn´ım systému (kdo je právˇe pˇrihláˇsený atd.),