• No results found

Shrnut´ı implementace

In document Web Page Classification (Page 43-45)

V r´amci implementace se podaˇrilo upravit klasifikaˇcn´ı metodu ARC-BC pro dolov´an´ı na relaˇcn´ıch datech. Hlavn´ı zmˇeny spoˇc´ıvaly zejm´ena v modifikaci postupu pro dolov´an´ı frekven- tovan´ych mnoˇzin a v zaˇclenˇen´ı diskretizace numerick´ych atribut˚u. Souˇc´ast´ı ´uprav bylo tak´e urˇcen´ı vhodn´eho v´ypoˇctu spolehlivosti asociaˇcn´ıch pravidel, kter´e klasifikaˇcn´ı metoda vy- generovala ve f´az´ı dolovan´ı frekventovan´ych mnoˇzin.

Cel´a implementace asociaˇcn´ıho klasifik´atoru ARC-BC je rozdˇelena do bal´ıˇck˚u podle funkce tˇr´ıd do nich spadaj´ıc´ıch. Samostatn´y bal´ıˇcek database sdruˇzuje tˇr´ıdy pro pr´aci s databaz´ı MySQL, bal´ıˇcek mining obecn´e tˇr´ıdy dolovac´ıch struktur, bal´ıˇcek ARC-BC tˇr´ıdy klasifikaˇcn´ıch algoritmu, bal´ıˇcek discretization pak tˇr´ıdy pro diskretizaci.

Kapitola 7

Testov´an´ı

Po implementaci metody probˇehlo testov´an´ı na pˇripraven´ych testovac´ıch datech tvoˇren´ych datov´ymi soubory Nursery, Adult, a koneˇcnˇe ostr´ymi daty z analyz´atoru vizu´aln´ıch vlast- nost´ı. Pro jednotliv´a bˇehy test˚u na datech je moˇzn´e nastavit nˇekolik v´yznamn´ych parametr˚u, kter´e maj´ı vliv na v´ysledky klasifikace:

1. min supp minim´aln´ı podporu asociaˇcn´ıch pravidel 2. min conf minim´aln´ı spolehlivost asociaˇcn´ıch pravidel 3. disc coef koeficient rozsahu diskretizovan´eho intevalu

V pˇr´ıpadˇe min supp plat´ı, ˇze ˇc´ım v´ıce se hodnota bl´ıˇz´ı k 1.0, t´ım obecnˇejˇs´ı pravidla jsou nalez´any. Naopak, pokud se podpora bl´ıˇz´ı k hodnotˇe 0.0, jsou v datech nalezen´e i pravidla, kter´a jsou v´ıce specializovan´a a kter´a by v pˇr´ıpadˇe vyˇsˇs´ı hodnoty min supp klasifik´ator v˚ubec nenaˇsel. V ide´aln´ı situaci by se mˇela b´yt hodnota min supp limitnˇe bl´ıˇzit k nule, ale v re´alu pak doch´az´ı k prohled´av´an´ı ne´umˇernˇe velk´eho prostoru frekventovan´ych mnoˇzin a tak´e pˇr´ıliˇsn´a velikost mnoˇziny v´ysledn´ych asociaˇcn´ıch pravidel pˇrin´aˇs´ı znaˇcn´y n´arust potˇrebn´eho v´ypoˇcetn´ıho ˇcasu.

Hodnota min conf ud´av´a m´ıru pravdivosti asociaˇcn´ıho pravidla. ˇC´ım v´ıce se hodnota bl´ıˇz´ı k 1.0, jsou hled´ana v´ıce pˇresn´a a data l´epe popisuj´ıc´ı pravidla. Takov´ych pravidel je ovˇsem minim´aln´ı mnoˇzstv´ı, proto je tˇreba experimentovat s hodnotou min conf , aby nedoˇslo k nechtˇen´emu potlaˇcen´ı asociaˇcn´ıch pravidel a n´asledn´emu jevu, kdy by z˚ustalo velk´e mnoˇzstv´ı dat neklasifikovan´ych, protoˇze by prostˇe neexistovala ˇz´adn´a pravidla, kter´a by mˇela vyˇsˇs´ı hodnotu spolehlivosti.

Posledn´ı parametr disc coef ovlivˇnuje poˇctu diskretizovan´ych interval˚u. Samotn´y v´ypoˇcet velikosti je odvozen od pravidla pro v´ypoˇcet histogram˚u. Se zvyˇsuj´ıc´ı se hodnotou disc coef vzr˚ust´a poˇcet interval˚u (ˇc´ımˇz se sniˇzuje jejich velikost) pro jeden diskretizovan´y atribut.

V n´asleduj´ıc´ı testech jsem provedl experimenty s r˚uzn´ym nastaven´ım v´yˇse uveden´ych parametr˚u a pozoroval jsem chov´an´ı a v´ysledky metody ARC-BC.

7.1

Ostr´a data z webu

Vstupn´ı data extrahovan´a z webov´ych str´anek byla podrobena d˚ukladn´ym test˚um s r˚uzn´ymi poˇc´ateˇcn´ımi parametry. Pro pˇr´ıpadn´e porovn´an´ı s jin´ymi klasifikaˇcn´ımi metodami v testech sleduji pˇredevˇs´ım metriky missclassification-rate a precision.

Obr´azek 1 zobrazuje v´ysledky klasifikace pˇri pevnˇe nastaven´e minim´aln´ı podpoˇre min supp = 0.05 a r˚uznˇe vysok´ych hodnot´ach spolehlivosti min conf. Zelenˇe zbarven´y fragment sloupce grafu ud´av´a mnoˇzstv´ı dokument˚u, kter´e byly klasifikov´any do spr´avn´e tˇr´ıdy, ˇcervenou barvou je vyznaˇcena mnoˇzina dokument˚u, kter´e klasifik´ator chybnˇe zaˇradil do jin´e kategorie, b´ıl´a ˇc´ast sloupce nakonec oznaˇcuje dokumenty, kter´e klasifik´ator nezaˇradil do ˇz´adn´e z tˇr´ıd.

0.95 0.9 0.8 0.7 0.6 0 1000 2000 3000 4000 5000 33% 33% 38% 39% 39% 20% 36% 53% 58% 61% 46% 31% 9% Neklasifikované Klasifikované do špatné třídy Klasifikované do dobřé třídy

Obr´azek 7.1: Zastoupen´ı neklasifikovan´ych, spr´avnˇe klasifikovan´ych a neklasifikovan´ych dokument˚u pˇri konstantn´ı hodnotˇe podpory min supp=0.05 a r˚uzn´ych hodnot´ach spolehlivosti(osa x).

Z grafu je patrn´e, ˇze se sniˇzuj´ıc´ı se hodnotou spolehlivosti se postupnˇe zvyˇsuje celkov´e mnoˇzstv´ı klasifikovan´ych dokument˚u. Kdyˇz byla spolehlivost min conf rovna 0.95, o 46%- ti vˇsech testovan´ych dokument˚u nebyl klasifik´ator schopen rozhodnout (at’ uˇz spr´avnˇe, ˇci chybnˇe).

Co se t´yˇce pˇresnosti klasifikace, v nejlepˇs´ım nalezen´e konfiguraci vstupn´ıch parametr˚u se podaˇrilo dos´ahnout pˇresnosti pouze 40%, ve vˇetˇsinˇe jin´ych konfigurac´ı pak nab´yvala hodnot okolo 35%. Ide´aln´ı nalezen´a konfigurace byla min supp = 0.05, min conf = 0.68, v jin´ych pˇr´ıpadech doch´azelo bud’ k pˇretr´enov´an´ı (velk´e mnoˇzstv´ı nespolehliv´ych pravidel), nebo naopak k nedostateˇcn´emu natr´enov´an´ı, kdy omezen´e mnoˇzstv´ı asociaˇcn´ıch pravidel zp˚usobilo to, ˇze mnoho dokument˚u z˚ustalo neklasifikovan´ych (viz. Graf 1 prvn´ı sloupec).

Lepˇs´ıch v´ysledk˚u se nepodaˇrilo dos´ahnout ani s r˚uzn´ymi hodnotami min supp (testov´any hodnoty 0.05 − 0.21) a min conf (0.60 − 0.95), ani s r˚uzn´ym nastaven´ım velikosti diskretizo- van´ych interval˚u. Zaj´ımav´e chov´an´ı algoritmu na vstupn´ıch datech lze z pozorovat tak´e v Grafu 1, kdy i pˇri sniˇzuj´ıc´ı se nastaven´e hodnotˇe spolehlivosti nedoch´az´ı k v´yrazn´emu zv´yˇsen´ı mnoˇzstv´ı spr´avnˇe klasifikovan´ych dokument˚u.

Celkovˇe se daj´ı v´ysledky klasifikace zhodnotit jako velmi ˇspatn´e, pˇresnost klasifikace kolem 40% nen´ı dostateˇcn´a pro re´aln´e nasazen´ı. Pro zjiˇstˇen´ı d˚uvod˚u ˇspatn´ych v´ysledk˚u bylo provedeno testov´an´ı na dalˇs´ıch souborech dat - datov´em souboru NURSERY a datov´em souboru ADULT.

In document Web Page Classification (Page 43-45)

Related documents