Web Page Classification

(1)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

YCH SYST ´

EM ˚

U

FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER SYSTEMS

KLASIFIKACE WEBOV ´

YCH STR ´

ANEK

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

Bc. ROMAN KOL ´

A ˇ

R

AUTHOR

(2)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

YCH SYST ´

EM ˚

U

FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER SYSTEMS

KLASIFIKACE WEBOV ´

YCH STR ´

ANEK

WEB PAGE CLASSIFICATION

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

Bc. ROMAN KOL ´

A ˇ

R

AUTHOR

VEDOUC´I PR ´

ACE

Ing. VLADIM´IR BART´IK, PhD.

SUPERVISOR

(3)

Abstrakt

Práce se zabývá problematikou automatické klasifikace webových stránek s vyuˇzit´ım aso-ciaˇcn´ıho klasifikátoru. Je pˇredstavena klasifikace, jakoˇzto jeden z obor˚u dolován´ı znalost´ı z databáz´ı; zvláˇstn´ı prostor je vˇenován klasifikaci textových dat. Jsou diskutovány r˚uzné metody klasifikace textových dokument˚u se zd˚uraznˇen´ım výhod klasifikátor˚u vyuˇz´ıvaj´ıc´ıch pro rozhodován´ı asociaˇcn´ı pravidla. C´ılem práce je pokusit se pˇrizp˚usobit vybranou klasi-fikaˇcn´ı metodu pro relaˇcn´ı data a navrhnout systém pro klasifikaci webových stránek po-dle vizuáln´ıch vlastnost´ı - rozloˇzen´ı jednotlivých oblast´ı na stránce, nikoliv podle ˇcistého textového obsahu. K tomu je vyuˇzitý asociaˇcn´ı klasifikátor ARC-BC kombinuj´ıc´ı výhody známých klasifikaˇcn´ıch metod.

Kl´ıˇ

cov´

a slova

klasifikace, klasifik´ator, Web, dolov´an´ı znalost´ı, asociaˇcn´ı pravidlo, pˇresnost, data, diskretizace, kategorie, struktura, atribut, podpora, spolehlivost, text, interval

Abstract

This paper presents problem of automatic webpages classification using association rules based classifier. Classification problem is presented, as a one of datamining technique, in context of mining knowledges from text data. There are many text document classification methods presented with highlighting benefits of classification methods using association rules. The main goal of work is adjusting selected classification method for relation data and design draft of webpages classifier, which classifies pages with the aid of visual properties - independent section layout on the web page, not (only) by textual data. There is also ARC-BC classification method presented as a selected method and as one of intriguing classificators, that derives accuracy and understandableness benefits of all other methods.

Keywords

classification, classificator, Web, datamining, association rule, precission, data, discretiza-tion, category, structure, attribute, support, confidence, text, interval

Citace

Roman Koláˇr: Klasifikace webových stránek, diplomová práce, Brno, FIT VUT v Brnˇe, 2008

(4)

Klasifikace webov´

ych str´

anek

Prohl´

aˇ

sen´ı

Prohlaˇsuji, ˇze jsem diplomovou pr´aci vypracoval samostatnˇe.

. . . . Roman Kol´aˇr 15. kvˇetna 2008

c

Roman Kol´aˇr, 2008.

Tato práce vznikla jako ˇskoln´ı d´ılo na Vysokém uˇcen´ı technickém v Brnˇe, Fakultˇe in-formaˇcn´ıch technologi´ı. Práce je chránˇena autorským zákonem a jej´ı uˇzit´ı bez udˇelen´ı oprávnˇen´ı autorem je nezákonné, s výjimkou zákonem definovaných pˇr´ıpad˚u.

(5)

Obsah

1 Uvod´ 3

2 Dolov´an´ı znalost´ı z dat 5

2.1 Dolov´an´ı znalost´ı z textov´ych dat . . . 5

2.2 Zdroje dat pro dolov´an´ı znalost´ı . . . 6

2.2.1 Relaˇcn´ı datab´aze . . . 7

2.2.2 Transakˇcn´ı datab´aze . . . 7

2.2.4 Datov´y sklad . . . 7

2.3 Asociaˇcn´ı pravidla . . . 8

2.3.1 Algoritmus pro generov´an´ı siln´ych asociaˇcn´ıch pravidel . . . 9

2.3.2 Algoritmy pro generov´an´ı asociaˇcn´ıch pravidel . . . 9

2.4 Klasifikace . . . 9

2.4.1 Klasifikace jako metoda dolov´an´ı znalost´ı . . . 11

2.4.2 Hodnocen´ı klasifikaˇcn´ıch metod . . . 11

2.5 Tradiˇcn´ı klasifikaˇcn´ı metody . . . 13

2.5.1 Rozhodovac´ı stromy . . . 13

3 Klasifikace dokument˚u zaloˇzen´a na asociaˇcn´ıch pravidlech 14 3.1 Klasifikace textov´ych dokument˚u . . . 14

3.1.1 Praktick´e vyuˇzit´ı . . . 14

3.2 Klasifikace webov´ych str´anek . . . 15

3.2.1 Klasifikace s vyuˇzit´ım asociaˇcn´ıch pravidel . . . 16

3.3 Metoda ARC-BC . . . 17

3.3.1 Popis metody . . . 17

3.3.2 Pˇredzpracov´an´ı dat . . . 18

3.3.3 Dolov´an´ı asociaˇcn´ıch pravidel . . . 18

3.3.4 Proˇrez´av´an´ı asociaˇcn´ıch pravidel . . . 19

3.3.6 Klasifikace nov´eho dokumentu . . . 20

4 Návrh systému pro klasifikaci webových stránek 22 4.1 Popis . . . 22

4.2 C´ıl projektu . . . 23

5 Vstupn´ı data 24 5.1 Popis dat ke klasifikaci . . . 24

5.1.1 Format ARFF a jeho pˇrevod . . . 25

5.2 Popis dat testovac´ı datab´aze NURSERY . . . 25

(6)

6 Implementace klasifik´atoru 28

6.1 Celkov´y pohled . . . 28

6.1.1 Implementace dolov´an´ı frekventovan´ach mnoˇzin . . . 30

6.1.2 Implementace generov´an´ı asociaˇcn´ıch pravidel . . . 30

6.1.3 Implementace klasifikace dokument˚u . . . 30

6.1.4 Implementace diskretizace . . . 31

6.2 Bal´ıˇcek database . . . 31

6.2.1 Tˇr´ıda DBAccess . . . 31

6.2.2 Tˇr´ıda DBLoaderBC . . . 32

6.3 Bal´ıˇcek ARC-BC . . . 32

6.3.1 Tˇr´ıda ArcBC . . . 32 6.3.2 Tˇr´ıda ArcBCdiscretizer . . . 33 6.3.3 Tˇr´ıda ArcBCminer . . . 33 6.3.4 Tˇr´ıda ArcBCclassifier . . . 33 6.3.5 Tˇr´ıda Category . . . 33 6.3.6 Tˇr´ıda Document . . . 33

6.4 Bal´ıˇcek mining . . . 33

6.4.1 Tˇr´ıda fitem . . . 34

6.4.2 Tˇr´ıda LargeItemSet . . . 34

6.4.3 Tˇr´ıda Association Rule . . . 34

6.5 Bal´ıˇcek discretization . . . 34

6.5.1 Tˇr´ıda LookupTable . . . 35

6.5.2 Tˇr´ıda SimpleD . . . 35

6.5.3 Tˇr´ıda DiscInterval . . . 35

6.6 Naˇc´ıt´an´ı vstupn´ıch dat . . . 35

6.7 Probl´emy pˇri implementaci . . . 36

6.7.1 V´ypoˇcet spolehlivost asociaˇcn´ıch pravidel . . . 36

6.7.2 Diskretizace numerick´ych atribut˚u . . . 38

6.8 Shrnut´ı implementace . . . 39

7 Testov´an´ı 40 7.1 Ostr´a data z webu . . . 40

7.2 Datov´y soubor NURSERY . . . 41

7.3 Datov´y soubor ADULT . . . 42

7.4 Zhodnocen´ı proveden´ych test˚u . . . 42

8 Z´avˇer 44

9 Seznam pˇr´ıloh 48

Pˇr´ıloha A - Data z experiment˚u 49

(7)

Kapitola 1

´

Uvod

Mnoˇzstv´ı informac´ı obsaˇzených na Webu je obrovské a kaˇzdým rokem se mohutnˇe zvˇetˇsuje. Jiˇz v roce 2005 vyhledávaˇc Google indexoval v´ıce neˇz 8 miliard webových stránek a toto ˇ

c´ıslo se prudkým tempem zvyˇsuje. ˇC´ım v´ıce prostor dokument˚u uloˇzených na Webu roste, t´ım v´ıce roste také potˇreba z´ıskávat z tˇechto dat specifické informace. Data mining posky-tuje ˇradu technik pouˇzitelných pro vyhledán´ı zaj´ımavých vzor˚u v datech a pro vyjádˇren´ı tˇechto vzor˚u jako smysluplných informac´ı pro koncové uˇzivatele. Jednou z technik dolován´ı znalost´ı z dat také je klasifikace, která hraje d˚uleˇzitou roli v mnoha oblastech ˇr´ızen´ı a sbˇeru informac´ı.

Klasifikace webových stránek má za c´ıl automatizované rozpoznáván´ı tématu, kterému se stránka vˇenuje, a m˚uˇze být napˇr´ıklad vyuˇzita pro kategorizaci stránek do urˇcitých tˇr´ıd, ˇ

ci upˇresnˇen´ı vyhled´avac´ıch dotaz˚u.

Významnou vlastnost´ı webových stránek je jejich semistrukturovanost. Holá textová ˇ

cást pˇredstavuje nestrukturovanou ˇcást stránky, HTML znaˇcky a jejich obsah potom struk-turovanou. Tato vlastnost webových stránek indikuje pouˇzit´ı odliˇsných technik pro klasi-fikaci (a dolován´ı dat obecnˇe), neˇz je tomu u obyˇcejných textových dokument˚u, nebo plnˇe strukturovaných relaˇcn´ıch a transakˇcn´ıch dat.

Prozat´ım se vˇetˇsina výzkum˚u klasifikace webových stránek vˇenuje pˇredevˇs´ım klasifikaci podle textového, pˇr´ıpadnˇe multimediáln´ıho obsahu, nebo podle struktury celého webu.

Tato práce se vˇenuje klasifikaci webových stránek jakoˇzto procesu komplexn´ıho ohod-nocen´ı webové stránky podle v´ıce kriteri´ı, neˇz je jen pouhá analýza textového obsahem. Zamˇeˇruje se pˇritom zejména na vizáln´ı vzhled, tedy rozm´ıstˇen´ı významných, logicky samo-statných, oblast´ı na stránce.

V dˇr´ıvˇejˇs´ıch výzkumech a prac´ıch byla navrˇzena ˇrada klasifikaˇcn´ıch metod, jako jsou rozhodovac´ı stromy[18, 5], Bayesovské klasifikaˇcn´ı metody[6, 23, 17], na pravidlech zaloˇzená klasifikace [21, 14, 1, 13], ˇci r˚uzné statistické pˇr´ıstupy. Tyto vˇetˇsinou vycházej´ı z pˇr´ıstup˚u pouˇz´ıvaných v jiných oblastech dolován´ı znalost´ı a vedou z´ıskán´ı reprezentativn´ıho vzorku jistých znalost´ı (pravidel) z trénovac´ı mnoˇziny, které jsou následnˇe pouˇzité pro klasifikaci nových dat. Jednou z nových metod je také metoda ARC-BC vyuˇz´ıvaj´ıc´ı asociaˇcn´ı pravidla a dosahuj´ıc´ı pˇri jej´ı nativn´ı úloze klasifikace textových dat velice dobrých výsledk˚u.

V následuj´ıc´ıch kapitolách bude pˇredstavena problematika dolován´ı znalost´ı z doku-ment˚u se zamˇeˇren´ım na klasifikaci, samostatná ˇcást bude vyhrazena pro klasifikaci webových dokument˚u s vyuˇzit´ım asociaˇcn´ıch pravidel(Kapitola 3). Vysvˇetlen´ım základn´ıch pojm˚u klasifikace a asociaˇcn´ıch pravidel a jejich zaˇrazen´ı do dolován´ı znalost´ı jako celku se vˇenuje Kapitola 2. V Kapitole 3 bude mj. popsán a vysvˇetlen princip klasifikaˇcn´ı metody ARC-BC a vyzdviˇzeny výhody oproti ostatn´ım klasifikaˇcn´ım metodám. Kapitola 5 pak pˇredstavuje

(8)

hrubý návrh hypotetického klasifikaˇcn´ıho systému webových stránek zaloˇzeného na metodˇe ARC-BC a pracuj´ıc´ıho s daty z´ıskanými analýzou vizuáln´ıch vlastnostost´ı stránky.

V implementaˇcn´ı ˇcásti práce bude kromˇe popisu základn´ıch tˇr´ıd a bal´ıˇcku programu prezentován postup pˇri pˇretváˇren´ı metody ARC-BC pro relaˇcn´ı data. Závˇereˇcná kapitola shrnuje práci jako celek, vysvˇetluje výsledky dosaˇzené pˇri experimentáln´ıch klasifikac´ıch a otev´ırá diskusi pro moˇzná navazuj´ıc´ı rozˇs´ıˇren´ı a vylepˇsen´ı.

(9)

Kapitola 2

Dolov´

an´ı znalost´ı z dat

Dolován´ı znalost´ı z dat chápeme jako extrakci zaj´ımavých vzor˚u z dat, které jsou pˇredem neznámé, skryté a potenciálnˇe uˇziteˇcné. Data k extrakci maj´ı ve vˇetˇsinˇe pˇr´ıpad˚u velký ob-jem, ˇcasto se dolován´ı provád´ı nad rozsáhlými datovými sklady, ˇci produkˇcn´ımi databázemi. Významnou vlastnost´ı vzor˚u, které z dat pomoc´ı dolován´ı z´ıskáváme, je fakt, ˇze pˇred poˇcátkem dolován´ı jsou v datech skryté, na prvn´ı pohled nezjistitelné. Dolován´ı pak pˇ redsta-vuje mocný nástroj k jejich z´ıskán´ı, pˇrestoˇze se na celou ˇradu dolovac´ıch technik m˚uˇze pohl´ıˇzet jen jako na “pouhé” inteligentn´ı statistické metody.

Dolován´ı se uplatˇnuje vˇsude tam, kde docház´ı k rozsáhlému sbˇeru dat a je potˇreba tato data jistým zp˚usobem analyzovat. Typickými datovými zdroji pro dolován´ı jsou finanˇcn´ı data, obchodn´ı data, ˇci data telekomunikaˇcn´ıch spoleˇcnost´ı. Za jeden z d˚uleˇzitých úkol˚u dolován´ı je analýza nákupn´ıho koˇs´ıku, která zkoumá nákupn´ı zvyky zákazn´ık˚u.

2.1 Dolov´

an´ı znalost´ı z textov´

ych dat

Dolován´ı znalost´ı z textových dat (TM - text mining) je jednou z úloh dolován´ı znalost´ı z dat. Poˇzadavek na dolován´ı textových dat souvis´ı mj. s obrovským rozmachem elektron-icky uloˇzených dokument˚u - emailových zpráv, vˇedeckých ˇclánk˚u, elektronických knih a webových stránek. Zat´ımco ostatn´ı odvˇetv´ı data miningu se zamˇeˇruj´ı pˇredevˇs´ım na struk-turovaná data jako jsou data relaˇcn´ı, transakˇcn´ı, ˇci data v datových skladech, TM se snaˇz´ı z´ıskat informace nestrukturovaných, kde klasické metody DM selhávaj´ı a kde jsou vyˇzadované speciáln´ı metody a algoritmy.

V souˇcasné dobˇe existuje k text miningu mnoho r˚uzných pˇr´ıstup˚u a metod. Obecnˇe dˇel´ıme pˇr´ıstupy TM podle vstupn´ıch dat, které zadáváme TM systému na: (1) pˇr´ıstup zaloˇzený na kl´ıˇcových slovech, kde jsou vstupn´ımy daty kl´ıˇcová slova dokumentu, (2) pˇr´ıstup zaloˇzený na znaˇckách, kde je vstupem jistá mnoˇzina znaˇcek (tags), a (3) pˇr´ıstup zaloˇzený na extrakci informac´ı, vstupem jsou zde sémantické informace, jako napˇr. události, fakta. Pˇr´ıstup zaloˇzený na extrakci informac´ı je oproti ostatn´ım dvˇema pro-gresivnˇejˇs´ı a m˚uˇze vést k nalezen´ı významnˇejˇs´ıch znalost´ı v datech, ale vyˇzaduje sémantickou analýzu textového dokumentu. Z tˇechto tˇr´ı základn´ıch pˇr´ıstup˚u ˇcasem vznikalo ˇc´ım dál v´ıce ´

uloh pro dolován´ı textových dat jako jsou klasifikace dokument˚u, asociaˇcn´ı analýza, ex-trakce informac´ı, r˚uzné druhy asociaˇcn´ıch analýz, které se dnes bˇeˇznˇe vyuˇz´ıvaj´ı pˇri ˇreˇsen´ı bˇeˇzných problém˚u (filtrován´ı spamu, vyhledáván´ı stránek ve webových vyhledávaˇc´ıch aj.).

(10)

Asociaˇcn´ı anal´yza kl´ıˇcov´ych slov

Asociaˇcn´ı analýza kl´ıˇcových slov je analýza dokument˚u snaˇz´ıc´ı se nalézt mnoˇziny kl´ıˇcových slov, ˇci výraz˚u, které se vyskytuj´ı v textu ve vˇetˇs´ı frekvenci, neˇz ostatn´ı slova. Jako ˇrada dalˇs´ıch analýz provádˇených v dokumentu vyˇzaduje asociaˇcn´ı analýza data vhodným zp˚usobem pˇredzpracovaná, napˇr. jsou nalezeny koˇreny vˇsech slov a odstranˇené spojky, pˇredloˇzky a dalˇs´ı irelevantn´ı slova (tzv. stop words). Po proveden´ı asociaˇcn´ı analýzy kl´ıˇcových slov z´ıskáme kolekci záznam˚u {documentId, setOfKeywords}, která ke kaˇzdému dokumentu oznaˇcenému identifikátorem documentId pˇriˇrazuje mnoˇzinu kl´ıˇcových slov setOfKeywords. V souvis-losti s kl´ıˇcovými slovy probˇehla ˇrada výzkum˚u - napˇr. vyuˇzit´ı kl´ıˇcových slov pro dolován´ı znalost´ı[8].

Klasifikace dokument˚u

Klasifikace dokument˚u je d˚uleˇzitou úlohou dolován´ı znalost´ı. Existence velkého poˇctu on-line dokument˚u vyˇzaduje automatickou organizaci dokument˚u do kategori´ı podle daných kriteri´ı. Kategorie, do kterých chceme dokument pˇriˇradit, mus´ı být pˇredem známé (napˇr. mˇejme tˇr´ıdy Automobilismus, Pˇr´ırodn´ı tématika, Vˇedecká zpráva, a dokument neznámého obsahu, jenˇz chceme klasifikovat). Klasifikace dokument˚u se pouˇz´ıvá v mnoha aplikac´ıch a existuje pro ni mnoho metod a algoritm˚u [15, 10]. Podrobnˇeji se klasifikaci dokument˚u vˇenuje ˇcást 2.1.

Shlukov´a anal´yza

Shluková analýza dokument˚u je významná pro organizaci dokument˚u, o kterých nemáme ˇ

zádné informace. Oproti klasifikaci se liˇs´ı t´ım, ˇze nejsou pˇredem známé ˇzádné tˇr´ıdy, do kterých by se dokumenty rozˇrazovaly. V pr˚ubˇehu analýzy se hledaj´ı v dokumentech zaj´ımavé shluky (obdoba tˇr´ıd u klasifikace) dat, které reprezentuj´ı mnoˇzinu spoleˇcných vlastnost´ı dokument˚u.

Dolov´an´ı znalost´ı z Webu

Dolován´ı znalost´ı z webových stránek se snaˇz´ı z´ıskat informace uloˇzených ve webových stránkách. C´ılem je stejnˇe jako u bˇeˇzných nestrukturovaných dokument˚u z´ıskat d˚uleˇzité informace o obsahu webové dokumentu - napˇr. jeho klasifikace do tˇr´ıd, nalezen´ı kl´ıˇcových slov aj., pˇriˇcemˇz se nehled´ı na strukturu vybraného webu, pouze na obsah. V tomto smˇeru lze na webovou stránku pohl´ıˇzet jako na textový dokument [7, 19] s pˇr´ıpadným rozˇs´ıˇren´ım o multimediáln´ı prvky - obrázky.

Dolov´an´ı znalost´ı ze struktury webov´eho dokumentu

Dolován´ı znalost´ı ze struktury webového dokumentu se také zamˇeˇruje na webové stránky, ale snaˇz´ı se zjistit informace nikoliv z textového obsahu dokumentu, nýbrˇz ze struktury webových stránek. Pˇritom se uplatˇnuj´ı r˚uzné zp˚usoby, jako napˇr. reprezentace webových stránek jako grafu [16], ˇci klasifikace webových stránek podle analýzy struktury celého webu [9]. Dalˇs´ı moˇznost´ı dolován´ı znalost´ı ze struktury je analýza a sledován´ı hypertextových od-kaz˚u stránek [4, 3, 2, 22].

2.2 Zdroje dat pro dolov´

an´ı znalost´ı

Principielnˇe m˚uˇzeme znalosti dolovat z jakéhokoliv uloˇziˇstˇe informac´ı. Mezi nejˇcastˇeji pouˇz´ıvané zdroje dat pro dolován´ı potom patˇr´ı zejména:

(11)

• relaˇcn´ı databáze • transakˇcn´ı databáze • datové sklady

• ostatn´ı (textové databáze, objektovˇe orientované databáze. . . )

2.2.1 Relaˇcn´ı datab´aze

Relaˇcn´ı databáze je databáze zaloˇzená na relaˇcn´ım modelu dat a relaˇcn´ı algebˇre. Data jsou uspoˇrádána do tabulek (relac´ı), nad kterými jsou definovány pˇr´ıpustné operace. Sofware pro ˇr´ızen´ı databáze se obvykle nazývá Relational Database Management System(RDBMS). Jazykem pro definici dat(DDL) a manipulaci s daty (DML) je jazyk SQL, dotazovac´ı struk-turovaný jazyk. Relaˇcn´ı databázový model sdruˇzuje data do relac´ı (tabulek), které obsahuj´ı n-tice (ˇrádky). Tabulky (relace) tvoˇr´ı základ relaˇcn´ı databáze. Tabulka je struktura záznam˚u s pevnˇe stanovenými poloˇzkami (sloupci tabulky - atributy). Kaˇzdý sloupec má definován jednoznaˇcný název, typ a rozsah - doménu. Záznam tabulky je v z matematického hlediska uspoˇrádanou n-tic´ı (tuple) prvk˚u. Pokud jsou v r˚uzných tabulkách sloupce stejného typu, pak tyto sloupce mohou vytváˇret vazby mezi jednotlivými tabulkami. Tabulky se poté naplˇnuj´ı vlastn´ım obsahem - konkrétn´ımi daty.

ID category att 1 att 2 att 3

1 Category 3 value 1.1 value 1.2 value 1.3 2 Category 5 value 2.1 value 2.2 value 2.3 3 Category 3 value 3.1 value 3.2 value 3.3 4 Category 2 value 4.1 value 4.2 value 4.3 5 Category 3 value 5.1 value 5.2 value 5.3

... ... ... ... ...

n Category X value n.1 value n.2 value n.3

Tabulka 2.1: Tabulka relaˇcn´ı datab´aze.

2.2.2 Transakˇcn´ı datab´aze

Transakˇcn´ı databáze nejˇcastˇeji uchováváj´ı prodejn´ı data pro obchodn´ı úˇcely. Klasickým pouˇzit´ım transakˇcn´ı databáze je databáze provedených nákup˚u v prodejnˇe. Jednotlivé nákupy se ukládaj´ı ve formˇe transakce, kdy kaˇzdá transakce obsahuje poloˇzky koupené v jednom nákupu.

Definice 2.2.3 Necht’ T je mnoˇzina transakc´ı (transakˇcn´ı datab´aze) a necht’ I = {I1, I2, . . . , Im}

je mnoˇzina poloˇzek. Kaˇzd´a transakce T v transakˇcn´ı datab´azi je mnoˇzinou poloˇzek takovou, ˇ

ze T ⊆ I.

2.2.4 Datov´y sklad

Datový sklad je subjektivnˇe orientovaný, integrovaný, ˇcasovˇe promˇenný, leˇc stálý soubor dat, který slouˇz´ı pro podporu rozhodován´ı. Datový sklad neuchovává data, která nejsou vhodná pro podporu rozhodován´ı. Vzhledem k tomu, ˇze do datového skladu vstupuj´ı data

(12)

z r˚uzných produkˇcn´ıch databáz´ı, je d˚uleˇzitá integrace a sjednocen´ı dat. Toto integrován´ı zahrnuje sjednocen´ı stejných ukazatel˚u, sjednocen´ı mˇeˇr´ıtek (napˇr´ıklad zda se budou infor-mace o výdaj´ıch ukládat v korunách, nebo v t´ıs´ıc´ıch korunách atd. . . ).

Vˇsechna data v datovém skladu pˇredstavuj´ı ˇcasový sn´ımek dat z produkˇcn´ıch databáz´ı sejmutý v urˇcitém ukamˇziku. Datový sklad je aktualizován offline v urˇcitých ˇcasových intervalech (mˇes´ıˇcnˇe, ˇctvrtletnˇe, roˇcnˇe) a je rovnˇeˇz analyzován oddˇelenˇe od produkˇcn´ıch databáz´ı. Výhodou je, ˇze neˇsetrný zásah do datového skladu neovlivn´ı produkˇcn´ı databázi. Pro dolován´ı jsou datové sklady nejlepˇs´ım zdrojem - obsahuj´ı velké mnoˇzstv´ı dat, které ˇcin´ı výsledky dolován´ı relevantnˇejˇs´ı, neˇz je tomu u “malých” produkˇcn´ıch databáz´ı.

2.3 Asociaˇ

cn´ı pravidla

Asociaˇcn´ı pravidla jsou jedny z nejˇcastˇeji dolovaných znalost´ı v datech a vyuˇz´ıvaj´ı se pˇredevˇs´ım pˇri tzv. analýze nákupn´ıho koˇs´ıku(market basket analysis). Tento proces slouˇz´ı k analýze nákupn´ıch zvyk˚u zákazn´ık˚u hledán´ım asociac´ı mezi poloˇzkami, které zákazn´ıci vloˇzili do svých nákupn´ıho koˇs´ıku[11]. Nabyté znalosti mohou pomoci usnadnit provádˇen´ı strategických krok˚u k c´ılené marketingové kampani. Uvaˇzujme obchodn´ı ˇretˇezec, kde da-tový specialista zjistil, ˇze pokud si zákazn´ık zakoup´ı mléko, potom si témˇeˇr vˇzdy zakoupil také chléb. Pomineme-li triviálnost a obecnou znalost tohoto pravidla, m˚uˇze veden´ı um´ıstit prodejn´ı plochu mléka bl´ızko k m´ıstu prodeje chleba, ˇc´ımˇz jednak vyjde vstˇr´ıc zákazn´ık˚um, kteˇr´ı nebudou nuceni absolvovat sloˇzité cesty po supermarketu hledaj´ıc poˇzadované zboˇz´ı, jednak mohou pˇrimˇet ke koupi obou artikl˚u i ty, kteˇr´ı p˚uvodnˇe pˇred pˇr´ıchodem do obchodu jejich zakoupen´ı neplánovali.

Form´alnˇe m˚uˇzeme asociaˇcn´ı pravidla definovat takto [11]: Necht’ I = {I1, I2, . . . , Im}

je mnoˇzina prvk˚u. Necht’ D je mnoˇzina databázových transakc´ı, kde kaˇzdá transakce T je mnoˇzina prvk˚u takových, ˇze T ⊆ I. Kaˇzdá transakce T je svázána s identifikátorem transakce nazývaným TID. Necht’ A je mnoˇzina prvk˚u. ˇR´ıkáme,ˇze transakce T obsahuje A tehdy a jen tehdy, kdyˇz A ⊆ T . Asociaˇcn´ı pravidlo je implikace ve tvaru A ⇒ B, kde A ⊂ I, B ⊂ I a A ∩ B = ∅ a maj´ı dvˇe základn´ı charakteristiky - podporu a spolehlivost Asociaˇcn´ı pravidlo má podporu (support ) v D rovnu s% transakc´ı v D, které obsahuj´ı X ∪ Y . Spolehlivost (confidence) pravidla udává, kolik s% transakc´ı v D, jeˇz obsahuj´ı X, obsahuje také Y . Neformálnˇe ˇreˇceno podpora udává, v kolika procentech transakc´ı T je obsaˇzena mnoˇzina prvk˚u X asociaˇcn´ıho pravidla; spolehlivost je hodnota ˇr´ıkaj´ıc´ı v kolika procentech transakc´ı kde se vyskytuje X se vyskytuje také Y1

ml´eko ∧ rohl´ıky ⇒ chl´eb [supp 0.01, conf 0.8 ]

Problém nalezen´ı asociaˇcn´ıch pravidel v datech sestává z generován´ı pravidel, které maj´ı spolehlivost a podporu vyˇsˇs´ı neˇz zadané prahové hodnoty. Taková pravidla nazýváme silná asociaˇcn´ı pravidla.

Obecnˇe mohou asociaˇcn´ı pravidla sestávat z jakýkoliv výraz˚u, o který jsme schopni v koneˇcném ˇcase rozhodnout, zda jsou pravdivá ˇci nikoliv. Základn´ı typ pravidel je z´ıskáván z transakˇcn´ıch databáz´ı a typicky je výsledkem dˇr´ıve zmiˇnované analýzy nákupn´ıho koˇs´ıku. Transakˇcn´ı databáze zaznamenávaj´ı vˇsechny provedené transakce (napˇr. obchodn´ı transakce), tedy informace o kaˇzdém nákupu. Data v transakc´ıch sestávaj´ı z jednoduchých boolovských atribut˚u (které mohou nabývat pouze hodnot 0 a 1) ve stejné dimenzi. Pokud stále uvaˇzujeme

1

(13)

analýzu nákupn´ıho koˇs´ıku, tak typickým pˇr´ıkladem dimenze je zakoupil, kde atributy pˇr´ısluˇsné této dimenzi tvoˇr´ı jednotlivé poloˇzky zboˇz´ı. Pokud je hodnota atributu v transakci 1, potom zákazn´ık pˇr´ısluˇsné zboˇz´ı zakoupil; pokud je 0, potom jej nezakoupil.

2.3.1 Algoritmus pro generov´an´ı siln´ych asociaˇcn´ıch pravidel

Výsledkem dolovac´ıch algoritm˚u je mnoˇzina vˇsech frekventovaných mnoˇzin, coˇz je mnoˇzina jistých prvk˚u (poloˇzek) zdrojových dat. Frekventovaná mnoˇzina, která obsahuje k prvk˚u, se nazývá k -mnoˇzina.

Jakmile jsou nalezeny vˇsechny frekventované mnoˇziny z transakc´ı v databázi D, následuje generován´ı silných asociaˇcn´ıch pravidel (kde slovo silný vyjadˇruje, ˇze pravidlo splˇnuje poˇzadavek na minimáln´ı podporu support i minimáln´ı spolehlivost confidence). To se provád´ı následuj´ıc´ım výpoˇctem spolehlivosti:

conf idence(A ⇒ B) = podpora(A ∪ B) podpora(A) ,

kde podpora(A ∪ B) je ˇc´ıslo, vyjadˇruj´ıc´ı poˇcet transakc´ı obsahuj´ıc´ıch mnoˇzinu poloˇzek A ∪ B a podpora(A) poˇcet transakc´ı obsahuj´ıc´ıch mnoˇzinu poloˇzek A.

• Pro kaˇzdou frekventovanou mnoˇzinu L vygeneruj vˇsechny neprázdné podmnoˇziny. • Pro kaˇzdou neprázdnou podmnoˇzinu S, S ∈ L, vytvoˇr pravidlo S ⇒ (L − S) právˇe

tehdy, kdyˇz podpora(L)_podpora(S) ≥ min supp, kde min supp je pr´ah minim´aln´ı podpory.

2.3.2 Algoritmy pro generov´an´ı asociaˇcn´ıch pravidel

Vývoj algoritm˚u pro generován´ı asociaˇcn´ıch pravidel pˇr´ımo souvis´ı s jiˇz zmiˇnovanou analýzou nákupn´ıho koˇs´ıku. Prvn´ım pouˇzitým algoritmem v˚ubec byl algoritmus Apriori a jeho up-ravené varianty, které v´ıce ˇci ménˇe zvyˇsovaly úˇcinnost algoritmu a sniˇzovaly jeho obrovské pamˇet’ové nároky.

Algoritmus FP-Growth[12] pˇrinesl oproti Apriori nebývale rychlé generován´ı asociaˇcn´ıch pravidel. Pracuje na principu uloˇzen´ı p˚uvodn´ıch dat do kompaktn´ı stromové struktury FP-Tree, ˇc´ımˇz odpadá zdlouhavý proces generován´ı a testován´ı frekventovaných mnoˇzin. Apriori

Základn´ım algoritmem pro z´ıskáván´ı asociaˇcn´ıch pravidel je algoritmus Apriori. Jedná se o jednoduchý algoritmus, který z frekventovaných n-mnoˇzin generuje frekventované (n + 1)-mnoˇziny, k ˇcemuˇz vyuˇz´ıvá metodu prohledáván´ı do ˇs´ıˇrky(breadth-first search).

V kaˇzdém kroku algoritmu se vygeneruj´ı mnoˇziny prvk˚u a testuje se, zda podpora tˇechto prvk˚u je vˇetˇs´ı neˇz minimáln´ı podpora. Mnoˇziny, které t´ımto testem úspˇeˇsnˇe projdou, se pak stávaj´ı zdrojem pro generován´ı mnoˇzin obsahuj´ıc´ıch o jeden prvek v´ıce, neˇz p˚uvodn´ı mnoˇzina.

2.4 Klasifikace

Klasifikace, tedy pˇriˇrazován´ı objekt˚u reálného svˇeta do urˇcité kategorie, je pˇrirozený proces, pomoc´ı kterého si lidský mozek ujasˇnuje typické rysy o mnoˇzinˇe sobˇe podobných objekt˚u,

(14)

pˇriˇcemˇz tato m´ıra podobnosti je ˇcistˇe subjektivn´ı a záleˇz´ı na mnoha vlivech. Aniˇz bychom si to uvˇedomovali, klasifikace nám usnadˇnuje rychlé ohodnocen´ı poˇcitk˚u bez nutnosti jejich kompletn´ı analýzy. Malému d´ıtˇeti nedˇelá problém dotknout se holou rukou vaˇr´ıc´ıho se hrnce, nebot’ nedokáˇze kvalitnˇe vyhodnotit, jaký bude m´ıt kontakt lidské tkánˇe a rozˇzhaveného objektu d˚usledky. Aˇz po tom, co se poprvé popál´ı, v jeho mozku se uloˇz´ı pˇr´ısluˇsná informace, kterou bychom mohli vyjádˇrit napˇr´ıklad takto:

Pokud se z objektu na plotnˇe kouˇr´ı, potom je nebezpeˇcn´y

V pr˚ubˇehu ˇzivota následnˇe docház´ı k postupnému “upˇresˇnován´ı” vytvoˇrených pravidel na základˇe dalˇs´ıho proˇzit´ı identické (nebo podobné) situace. Dalˇs´ı a dalˇs´ı kontakty s hrncem na plotnˇe vedou ke kvalitnˇejˇs´ımu vyhodnocen´ı následuj´ıc´ıch situac´ı a postupem ˇcasu se mohlo pravidlo transformovat do podoby:

Pokud se objekt na plotnˇe podobá hrnci, vaˇr´ı se, kouˇr´ı se z nˇej a pokud nemá dˇrevˇené drˇzadlo, je objekt nebezpeˇcný.

Jiným pˇr´ıkladem klasifikace objekt˚u m˚uˇze být urˇcen´ı bonity klienta bankovn´ıch in-stituc´ı. Pˇredstavme si sama sebe jako ˇreditele banky, který poskytuje klient˚um finanˇcn´ı ´

uvˇery. Problém je v tom, ˇze urˇcitá skupina klient˚u úvˇer problémy se splácen´ım splátek a vaˇs´ım úkolem je rozhodnout, jak rozliˇsit ty klienty, kteˇr´ı jsou bezproblémov´ı, a kterým nen´ı rizikové pen´ıze p˚ujˇcit, a ty, kteˇr´ı naopak splácet nebudou.

Pokud máme k dispozici záznamy o napˇr. 1000000 posledn´ıch ˇzadatel˚u o úvˇer, m˚uˇzeme analýzou osobn´ıch informac´ı (napˇr. výˇse platu, vˇek) zaˇradit kaˇzdého do jedné ze tˇr´ıd {schopný splácet, neschopný splácet}. S vyuˇzit´ım nabitých znalost´ı o minulých zákazn´ıc´ıch pak m˚uˇzeme novˇe pˇr´ıchoz´ı klienty ohodnotit tak, ˇze napˇr. porovnáme jejich osobn´ı infor-mace s jiˇz analyzovanými informacemi. Informace o tam obrovském mnoˇzstv´ı klient˚u jsou vˇsak velmi tˇeˇzce zpracovatelné lidským mozkem, a tak je zcela logické, ˇze se v pr˚ubˇehu let zaˇcaly vytváˇret techniky a nástroje pro automatizovanou klasifikaci.

V této kapitola bude vysvˇetlen a diskutován význam klasifikace z hlediska pomoci pˇri rozhodován´ı. Zvláˇstn´ı samostatná ˇcást bude vˇenovaná vyuˇzit´ı asociaˇcn´ıch pravidel pˇri klasi-fikaci.

U klasifikaˇcn´ıch metod 3 sledujeme nˇekolik d˚uleˇzitých vlastnost´ı, které nám pomáhaj´ı je mezi sebou porovnávat a urˇcovat oblasti vhodného pouˇzit´ı(viz.[11]):

• Stupeˇn pˇresnosti klasifikátoru udává jak pˇresnˇe dokáˇze klasifikátor ohodnotit novˇe pˇr´ıchoz´ı vzorky a je urˇcena procentuáln´ı úspˇeˇsnosti klasifikace.

• Rychlost klasifikátoru vyjadˇruje výpoˇcetn´ı ˇcas spojený s uˇcen´ım a testován´ım klasi-fikátoru.

• Robustnost je schopnost klasifikátoru vypoˇrádat se i s poˇskozenými vstupn´ımi daty (zaˇsumˇená data, chybˇej´ıc´ı hodnoty).

• Stabilita vypov´ıdá o tom, jak je klasifikátor schopný správné funkˇcnosti i na velkém mnoˇzstv´ı dat.

• Interpretovatelnost udává stupeˇn srozumitelnosti klasifikátoru.

3

(15)

Výbˇer klasifikaˇcn´ı metody závis´ı pˇredevˇs´ım na poˇzadovaných vlastnostech. Pokud potˇrebujeme rychlý klasifikátor pro klasifikaci vzork˚u v reálném ˇcase, bude nám záleˇzet na jej´ı rychlosti a oˇzel´ıme napˇr´ıklad interpretovatelnost.

2.4.1 Klasifikace jako metoda dolov´an´ı znalost´ı

Klasifikace je proces zaˇrazen´ı objektu do urˇcité tˇr´ıdy a sestává ze dvou fáz´ı[11]: 1. Fáze trénován´ı klasifikátoru(Training phase)

2. Fáze testován´ı(Testing phase) Trénovac´ı fáze

V trénovac´ı fázi je z dat vytvoˇrená tzv. trénovac´ı mnoˇzina - vyberou se vzorky dat, které budou reprezentovat klasifikátor. U tˇechto vybraných dat mus´ıme pˇresnˇe vˇedˇet, do které tˇr´ıdy jsou zaˇrazena (tˇr´ıd mus´ı být pˇredem známý koneˇcný poˇcet) 1 Trénovac´ı mnoˇzinu si m˚uˇzeme pˇredstavit jako dvojici (X, Class), kde vektor X = (x1, x2, x3, . . . , xn) je vektor

hodnot n atribut˚u nˇejak´eho objektu a Class je oznaˇcen´ı tˇr´ıdy, do kter´e je objekt pˇriˇrazen. ´

Ukolem klasifikátoru je pak nauˇcit se funkci y = f (X), která pˇredpov´ıdá tˇr´ıdu na základˇe znalosti vektoru X. Mapovac´ı funkce m˚uˇze být reprezentovaná r˚uznými zp˚usoby - napˇr. formou klasifikaˇcn´ıch pravidel, rozhodovac´ıch strom˚u, r˚uzných matematických vzorc˚u apod. Výstupem prvn´ı fáze klasifikace je tedy jakási ˇcerná skˇr´ıˇnka, které kdyˇz na vstup pˇriloˇz´ıme vektor X, tak na výstupu vrát´ı tˇr´ıdu Class, do které (s urˇcitou pravdˇepodobnost´ı) objekt reprezentovaný X patˇr´ı.

Testovac´ı f´aze

Ve druhé fázi klasifikace, kterou nazýváme fáz´ı trénován´ı docház´ı k ovˇeˇren´ı vlastnost´ı klasi-fikátoru, pˇredevˇs´ım urˇcen´ı MR2 a urˇcen´ı, do jaké m´ıry se klasifikátor hod´ı pro ˇreˇsen´ı toho konkrétn´ıho problému.

Pro tento krok mus´ıme opˇet vybrat vzorky dat se známou tˇr´ıdou, do které objekt patˇr´ı -testovac´ı mnoˇzinu. Tyto vzorky by se mˇeli liˇsit od vzork˚u pouˇzitých v prvn´ı fázi klasifikace. Zat´ımco ve fáze trénován´ı se klasifikátor jistým zp˚usobem nauˇcil “pˇredpov´ıdat”, v této fázi se hodnot´ı m´ıra kvality jeho pˇredpovˇed´ı a na základˇe známosti tˇr´ıd, do kterých vzorek patˇr´ı, se urˇcuje jeho MR.

2.4.2 Hodnocen´ı klasifikaˇcn´ıch metod

Pro ohodnocen´ı klasifikátor˚u z hlediska kvality pˇredpovˇedi existuje celá ˇreda metrik. Ty se hod´ı také v pˇr´ıpadˇe, ˇze potˇrebujeme porovnat nˇekolik r˚uzných klasifikaˇcn´ıch metod. Asi nejˇcastˇeji uˇz´ıvanou metrikou je pˇresnost, jenˇz udává pomˇer správnˇe klasifikovaných dokument˚u ku vˇsem dokument˚um v testovac´ı mnoˇzinˇe. Dalé se ˇcasto mluv´ı o chybovosti klasifikátoru, která je definovaná jako 1− pˇresnost.

• p+ _{(true positive) = poˇ}_{cet dokument˚}_{u klasifikovan´}_{ych do spr´}_avn´_{e tˇ}_r´ıdy

1

Trénovac´ı fáze je pˇr´ıkladem uˇcen´ı s uˇcitelem, kdy známe tˇr´ıdy, do kterých se budou trénovac´ı vzorky dat pˇriˇrazovat.

2_{MR = Misclassification Rate, neboli pravdˇ}_{epodobnost ˇ}_spatn´_{e klasifikace. ˇ}_{C´ım niˇ}_zˇ_{s´ı hodnoty nab´}_yv´_a,

(16)

C1 C2

C1 true positive false negative

C2 false positive true negative

• n− _{(true negative) = poˇ}_{cet dokument˚}_{u spr´}_avnˇ_{e neklasifikovan´}_{ych do tˇ}_r´ıdy

• p− (false positive) = poˇcet dokument˚u klasifikovan´ych do chybn´e tˇr´ıdy • n+ _{(false negative) = poˇ}_{cet dokument˚}_{u chybnˇ}_{e neklasifikovan´}_{ych do tˇ}_r´ıdy

Mus´ı platit, ˇze p++ p−+ n++ n−= N , kde N je rovno celkov´emu poˇctu dokument˚u v testovac´ı mnoˇzinˇe.

Pˇresnost(precision )

Udává poˇcet správnˇe správnˇe klasifikovaných dokument˚u v pomˇeru k poˇctu vˇsech doku-ment˚u, které byly klasifikované do jakékoliv tˇr´ıdy.

precision = p

+

p+_{+ n}+

Z jiného pohledu lze na pˇresnot pohl´ıˇzet jako na pravdˇepodobnost výbˇeru správnˇe klasi-fikovaného dokument˚u z mnoˇziny vˇsech klasifikovaných.

´

Uplnost(recall )

Je metrikou, která vyjadˇruje pravdˇepodobnost, s jakou mezi je dokument správnˇe klasi-fikován do pˇr´ısluˇsné kategorie.

recall = p

+

p+_{+ p}−

Chybovost(error rate)

Je ˇcasto vyuˇz´ıvaným mˇeˇr´ıtkem pro hodnocen´ı klasifikaˇcn´ıch metod. Udává pomˇer vˇsech ˇspatnˇe klasifikovaných dokument˚u ku vˇsem dokument˚um v testovac´ı mnoˇzinˇe dokument˚u. Kromˇe názvu Error-rate se v literatuˇre ˇcasto m˚uˇzeme setkat s pojmem Misclassification Rate - MR; jejich význam je v kontextu klasifikace totoˇzný.

error rate = n

+_{+ p}−

p+_{+ p}−_{+ n}−_{+ n}+

Obecnˇe m˚uˇzeme MR chápat jako pravdˇepodobnost, s jakou klasifikátor daný dokument D zaˇrád´ı do ˇspatné tˇr´ıdy.

Kromˇe tˇechto existuje celá ˇrada dalˇs´ıch metrik, které dohromady tvoˇr´ı mocný nástroj pro popis vlastnost´ı klasifikaˇcn´ıch metod. Z dalˇs´ıch d˚uleˇzitých metrik se ˇcasto pouˇz´ıvá také napˇr. fallout, f-measure, sensitivity, specificity a jiné.

(17)

2.5 Tradiˇ

cn´ı klasifikaˇ

cn´ı metody

2.5.1 Rozhodovac´ı stromy

Rozhodovac´ı strom je stromová struktura, v niˇz uzly nesou hodnotu urˇcitého atributu z mnoˇziny atribut˚u, hrany mezi uzly definuj´ı podm´ınku vztahuj´ıc´ı se k atributu výˇse poloˇzenému uzlu a listy udáváj´ı tˇr´ıdu, do niˇz je vstupn´ı vzorek klasifikován. Rozhodovac´ı strom je grafickým vyjádˇren´ım rozhodovac´ıch pravidel, v rámci klasifikace je moˇzné na na rozhodovac´ı strom a rozhodovac´ı pravidla nahl´ıˇzet jako na ekvivalentn´ı modely pro klasi-fikaci.

U rozhodovac´ıch strom˚u je d˚uleˇzité správné sestrojen´ı samotného stromu, tedy pos-tupném urˇcen´ı “nejvýznamnˇejˇs´ıch” atribut˚u s nejvyˇsˇs´ı rozhodovac´ı schopnost´ı a rozdˇelen´ı hodnot atributu.

Neuronov´e s´ıtˇe

Obl´ıbeným klasifikaˇcn´ım modelem jsou umˇelé neuronové s´ıtˇe, které simuluj´ı chován´ı s´ıt´ı neuron˚u lidského mozku. Základn´ı jednotkou neuronové s´ıtˇe je neuron se vstupy a výstupy.

Pro kaˇzdý vstup xi neuronu i je definována váha wi a pro celý neuron bias Θ;

transfor-mac´ı vypoˇc´ıtan´e sumy

n

X

i=1

wixi+ Θ

jistou aktivaˇcn´ı funkc´ı z´ıskáme výstupn´ı hodnotu neuronu, která m˚uˇze být v pˇr´ıpadˇe s´ıt´ı neuron˚u ˇs´ıˇrena na vstupy jiných neuron˚u, pˇr´ıpadnˇe m˚uˇze tvoˇrit výstupn´ı hodnotu klasifikace vzorku.

Uˇcen´ı pro klasifikaci neuronovými s´ıtˇemi spoˇc´ıvá ve správném nastaven´ı vah wi vˇsech

neuron˚u ni a biasu Θ u vˇsech neuron˚u s´ıtˇe tak, aby výstupy koncových neuron˚u správnˇe

ohodnotily vzorky do pˇr´ısluˇsné tˇr´ıdy. Na poˇcátku se hodnoty nastav´ı náhodnˇe a postupným testován´ım se upravuj´ı do té doby, dokud nedosáhneme poˇzadované pˇresnosti.

Nejˇcastˇeji pouˇz´ıvanou neuronovou s´ıt´ı je s´ıt Backpropagation tvoˇrená neurony nazývanými perceptron. Neurony v s´ıti Backpropagation jsou seskupeny do vrstev; rozliˇsujeme vstupn´ı vrstvu, skryté vrsty a vrstvu výstupn´ı. Vstupn´ı vrstva je tvoˇrena neurony pˇrij´ımaj´ıc´ı vstupn´ı hodnoty. Ve skrytých vsrtvách docház´ı k postupnému zpracován´ı hodnot ze vstupn´ı vrstvy a k ˇs´ıˇren´ı hodnot do vrstvy výstupn´ı, jej´ıˇz neurony na výstupu urˇcuj´ı výslednou hodnotu vstupn´ıho vzorku. Uˇcen´ı s´ıtˇe Backpropagation je zaloˇzená na zpˇetném ˇs´ıˇren´ı chyby, kdy se hodnota výstupn´ı vrstvy porovnává s oˇcekávanou hodnotou a podle toho jsou upraveny váhy neuron˚u od posledn´ı vrstvy aˇz po vrstvu vstupn´ı.

Metoda k-sousedstv´ı (k-nearest neighbor)

Velice jednoduchou metodou pro klasifikaci textu je metoda k-sousedstv´ı pracuj´ıc´ı na prin-cipu, ˇze dva sobˇe podobné dokumenty budou pravdˇepodobnˇe zaˇrazené do stejné tˇr´ıdy. Podobnost dokument˚u se urˇcuje na základˇe Eukleidovské vzdálenosti vektor˚u popisuj´ıc´ıch dokument. Z trénovac´ıch dat je vybráno právˇe k vzor˚u, jejichˇz vzdálenost je nejmenˇs´ı k právˇe klasifikovanému prvku. Klasifikovaný prvek je potom zaˇrazen do té tˇr´ıdy, která je nejˇcetnˇejˇs´ı u tˇechto k vybraných prvk˚u.

(18)

Kapitola 3

Klasifikace dokument˚

u zaloˇ

zen´

a na

asociaˇ

cn´ıch pravidlech

3.1 Klasifikace textov´

ych dokument˚

u

Klasifikace textových dat (TC - Text Classification) je úloha automatického tˇr´ıdˇen´ı doku-ment˚u do daných tˇr´ıd (kategori´ı). Tato úloha spadá do oblasti z´ıskáván´ı informac´ı(Information Retrieval) a strojového uˇcen´ı(Machine Learning).

Typicky prvn´ım krokem pˇri klasifikaci textových dat je transformace dokumentu, který je ve vˇetˇsinˇe pˇr´ıpad˚u reprezentován jako ˇretˇezec znak˚u, do podoby vhodné pro algoritmus klasifikaˇcn´ı metody. Výzkumy posledn´ıch let poukázaly pˇredevˇs´ım na d˚uleˇzitost stemmingu slov - urˇcen´ı koˇrene slov. To vede k reprezentaci textu jako dvojice atribut-hodnota, kde u kaˇzdého slova (slovn´ıho koˇrene) evidujeme poˇcet výskyt˚u v dokumentu. Jedn´ım z problém˚u pˇri stemmingu je velký poˇcet irelevantn´ıch slov, proto se vˇetˇsinou pouˇz´ıvaj´ı r˚uzné techniky vedouc´ı k redukci poˇctu slov.

Obecnˇe se pˇri klasifikaci textu postupuje obdobnˇe jako u klasifikace relaˇcn´ıch dat - z trénovac´ı mnoˇziny dat ze vytvoˇr´ı klasifikaˇcn´ı schema, podle kterého následnˇe klasifikujeme dalˇs´ı dokumenty. Zásadn´ı rozd´ıl je ve skuteˇcnosti, ˇze relaˇcn´ı data jsou plnˇe strukturovaná, napˇr. v n-tici { sluneˇcno, teplo, vlhko, bezvˇetˇr´ı, procházka } hodnota sluneˇcno koresponduje s atributem stavMraˇcen, hodnota horko s atributem teplota atd . . . . C´ılem asociaˇcn´ı analýzy je rozhodnout, jaká mnoˇzina dvojic atribut-hodnota atributu má nejvˇetˇs´ı vliv na to, zda se p˚ujde jistá osoba proj´ıt na procházku. Oproti tomu databáze dokument˚u nejsou takto strukturované a klasické relaˇcn´ı klasifikaˇcn´ı metody, napˇr. klasifikaˇcn´ı stromy, zde nejsou efektivn´ı.

3.1.1 Praktick´e vyuˇzit´ı

Filtrov´an´ı textu

Filtrován´ı textu je proces ohodnocen´ı, ˇci klasifikace pˇr´ıchoz´ıch dokument˚u podle jejich ob-sahu a rozhodnut´ı, zda dokument je pˇr´ıpustný, ˇci nikoliv. Typickýmy pˇr´ıpady filtrovac´ıho systému jsou filtr elektronické poˇsty, filtr nepˇr´ıpustného obsahu, nebo filtr pˇr´ıspˇevk˚u do internetových diskuz´ı. Filtrovac´ı systém m˚uˇze blokovat pˇrijet´ı dokumentu, o který pˇr´ıjemce nemá zájem. Filtrován´ı je pˇr´ıpad binárn´ıho TC, kdy se provád´ı klasifikace dokument˚u do dvou disjunktn´ıch kategori´ı - relevantn´ı a irelevantn´ı.

(19)

Organizace dokument˚u

Potˇreba organizovat dokumenty do kategori´ı je zde od poˇcátku existence textových doku-ment˚u v˚ubec. Krátký popis dokumentu (napˇr. formou názvu souboru) je výhodný pˇri prohl´ıˇzen´ı malého poˇctu dokument˚u, pˇri vˇetˇs´ım mnoˇzstv´ı je vyhledán´ı konkrétn´ıho doku-mentu obt´ıˇzné. Proto dokumenty organizujeme hierarchicky do kategori´ı, podkategori´ı atd. Napˇr. v redakci novin m˚uˇze pˇrij´ıt poˇzadavek na organizaci napsaných ˇclánk˚u pro bu-douc´ı jednoduˇsˇs´ı vyhledáván´ı. Moˇznými kategoriemi zde mohou být “Zprávy z domova”, “Zahraniˇcn´ı zprávy”, “Sportovn´ı zprávy” aj.

3.2 Klasifikace webov´

ych str´

anek

World Wide Web pˇredstavuje celosvˇetový obrovský distribuovaný zdroj informaˇcn´ı cen-trum novinových zpráv, reklam, obchodn´ıch informac´ı, uˇcebn´ıch materiál˚u, a mnoha dalˇs´ıch informaˇcn´ıch sluˇzeb. Mimo jiné Web poskytuje také bohatou dynamickou kolekci hyper-linkových odkaz˚u, informac´ı o pˇr´ıstupech na stránku, zátˇeˇz´ı server˚u, a dalˇs´ıch informac´ı vhodných pro dolován´ı znalost´ı.

Obr´azek 3.1: Oddˇelen´ı textu a struktury webov´eho dokumentu

Sloˇzitost webových dokument˚u(stránek) je daleko vˇetˇs´ı neˇz u jakékoliv kolekce tradiˇcn´ıch textových dokument˚u. Webové stránky postrádaj´ı sjednocenou strukturu dokumentu, jako je napˇr. název autora, obsah atd. . . a vyhledáván´ı v nich je proto obt´ıˇzné. ˇR´ıká se, ˇze 99% informac´ı na Webu je pro 99% návˇstˇevn´ık˚u nepotˇrebných. Toto pravidlo zcela odpov´ıdá skuteˇcnosti, kdy je problém v zával˚u webových dokument˚u problém naj´ıt ty, které odpov´ıdaj´ı naˇsim zájm˚um v dané oblasti. Klasifikace webových stránek je ale také v lecˇcems podobná klasifikaci obyˇcejných textových dokument˚u. Kromˇe samotného textu je dalˇs´ım moˇzným zdrojem znalost´ı rozm´ıstˇen´ı prvk˚u dokumentu, tj. rozloˇzen´ı a vlastnosti jednotlivých ˇcást´ı jako jsou navigaˇcn´ı menu, reklamn´ı banner, nebo tˇelo dokumentu. Je zˇrejmé, ˇze napˇr. we-bová stránka zpravodajského den´ıku bude m´ıt jiné rozloˇzen´ı, neˇz osobn´ı stránka, ˇci blog. V oblasti dolován´ı znalost´ı segmentac´ı prob´ıhaj´ı výzkumy intenzivnˇe aˇz v posledn´ı dobˇe, vˇenuje se j´ı napˇr. [20].

Ideáln´ı klasifikátor pˇri urˇcován´ı tˇr´ıdy, do které dokument patˇr´ı, provád´ı klasifikaci dvakrát - jednak se provede klasifikace podle textového obsahu stránky, jednak se dokument klasifikuje podle rozloˇzen´ı ˇcást´ı dokument˚u na stránce. Úkolem klasifikaˇcn´ıho systému je pak výsledky obou krok˚u sjednotit a urˇcit kategorii podle obou kriteri´ı.

(20)

3.2.1 Klasifikace s vyuˇzit´ım asociaˇcn´ıch pravidel

Metoda zaloˇzená na asociaˇcn´ıch pravidlech klasifikuje dokumenty na základˇe asociace ˇcasto se vyskytuj´ıc´ıho vzorku textu (slovo, slovn´ı spojen´ı) s tˇr´ıdou, která je t´ımto vzorkem reprezentovaná. Problém je, ˇze v textu se vyskytuje mnoho ˇcasto se opakuj´ıc´ıch vzork˚u (spojky, pˇredloˇzky), které o zaˇrazen´ı do tˇr´ıdy nemaj´ı ˇzádný vliv; úkolem asociaˇcn´ı klasi-fikátoru je tyto vzorky vylouˇcit a naj´ıt pouze vhodné vzorky textu.

V pˇr´ıpadˇe dat relaˇcn´ıch se asociaˇcn´ı klasifikátor od textového odliˇsuje zejména ve fázi dolován´ı asociaˇcn´ıch pravidel, kdy m´ısto vzork˚u textu tvoˇr´ı frekventované mnoˇziny dvojice atribut-hodnota.

Asociaˇcn´ı klasifikátory pracuj´ı obecnˇe v nˇekolika kroc´ıch. Nejprve mus´ı data pˇripravit pro metodu dolován´ı asociaˇcn´ıch pravidel. Nalezená pravidla se následnˇe mohou seˇradit podle kvality a právˇe na základˇe tˇechto pravidel klasifikátor urˇc´ı, do které tˇr´ıdy dokument patˇr´ı. Pro klasifikaci asociaˇcn´ımi pravidly existuje celá ˇrada metod.

Jednoduchá metoda CBA(Classification-Based Association)[14] provád´ı v´ıcenásobné pr˚ u-chody daty a hledá asociaˇcn´ı pravidla, pˇritom pracuje na principu podobném algoritmu Apriori. Nový dokument je zaˇrazen do té tˇr´ıdy, která je pokrytá prvn´ım pravidlem v seˇrazené mnoˇzinˇe z´ıskaných asociaˇcn´ıch pravidel.

Metoda CMAR(Classification based od Multiple Association Rules)[13]je v mnohém podobná pˇredchoz´ı metodˇe, liˇs´ı se vˇsak pˇr´ıstupem, jakým se hledaj´ı asociaˇcn´ı pravidla, a jakým se vytváˇr´ı samotný klasifikátor. M´ısto algoritmu Apriori je pro nalezen´ı asociaˇcn´ıch pravidel pouˇzitá varianta efektivn´ıho algoritmu FP-growth(Frequent Pattern-growth)[12], která v datové struktuˇre nazývané FP-strom(FP-tree) uchovává informace o vˇsech frekven-tovaných mnoˇzinách datového souboru. Pro uchován´ı asociaˇcn´ıch pravidel pouˇz´ıvá také stromovou strukturu, tzv. CR-strom(Classification Rule-tree). Metoda CMAR dosahuje pˇri praktickém pouˇzit´ı vyˇsˇs´ı efektivity klasifikace a vyˇsˇs´ı pr˚umˇerné pˇresnosti klasifikace neˇz algoritmus CBA[13]. Apriori CBA >> database << CMAR >> fp tree << ARC - BC >> database(impl) << FP Growth Apriori like (FP Growth) ... Single Category Multiple Category Complexity

Obr´azek 3.2: Oddˇelen´ı textu a struktury webov´eho dokumentu

(21)

jedné tˇr´ıdy. V praxi se s dokumenty náleˇz´ıc´ımi výhradnˇe do jedné kategorie setkáme velmi zˇr´ıdka a výsledky klasifikace takového dokumentu pak mohou být znaˇcnˇe zkreslené. Tento zásadn´ı problém dal za vznik dvˇema metodám urˇceným výhradnˇe pro klasifikaci textových dat - metodám AC(Association Rule-based Classifier with All Categories) a ARC-BC(Association Rule-base Classifier By Category). Obˇe metody se liˇs´ı pouze ve zp˚usobu hledán´ı asociaˇcn´ıch pravidel. Zat´ımco ARC-AC hledá pravidla v celé trénovac´ı mnoˇzinˇe dokument˚u, ARC-BC nejprve rozdˇel´ı dokumenty do skupin podle kategorie, do které patˇr´ı, a extrakci asociaˇcn´ıch pravidel pak provád´ı zvláˇst’ pro kaˇzdou skupinu. Podle [24] je ARC-BC výhodný i v pˇr´ıpadˇe kategori´ı, do kterých spadá pouze malé procento dokument˚u.

3.3 Metoda ARC-BC

Pro klasifikaci dokument˚u vzniklo velké mnoˇzstv´ı r˚uzných metod. Metoda ARC-BC[1] se snaˇz´ı zkombinovat jejich pˇrednosti (rychlost, interpretovatelnost) do klasifikaˇcn´ı metody vyuˇz´ıvaj´ıc´ı asociaˇcn´ı pravidla. Klasifikátor byl navrˇzen s ohledem na dva hlavn´ı problémy: (1) nalezen´ı kvalitn´ıch reprezentativn´ıch asociaˇcn´ı pravidel v textových datech generován´ım a proˇrezáván´ım; a (2) pouˇzit´ı nalezených pravidel k vybudován´ı textového klasifikátoru.

3.3.1 Popis metody

ARC-BC klasifikátor (Association Rule-based Classifier By Category) je klasickým aso-ciaˇcn´ım klasifikátorem. Oznaˇcen´ı ARC-BC vyjadˇruje hned nˇekolik d˚uleˇzitých informac´ı o klasifikátoru. ARC ˇr´ıká, ˇze klasifikátor pracuje na principu generován´ı asociaˇcn´ıch pravidel, BC potom upˇresˇnuje, jakým zp˚usobem se generuj´ı asociaˇcn´ı pravidla v jednotlivých kate-gori´ıch. V pˇr´ıpade ARC-BC se postupuje tak, ˇze pokud dokument náleˇz´ı do v´ıce jak jedné tˇr´ıdy, potom se vyskytuje ve vstupn´ıch datech tolikrát, do kolika tˇr´ıd patˇr´ı a dolován´ı pravidel se provád´ı samostatnˇe pro kaˇzdou mnoˇzinu dokument˚u Di, ve které jsou pouze

dokumenty n´aleˇz´ıc´ı do tˇr´ıdy ci. Naproti tomu metoda ARC-AC (Association Rule-based

Classifier with All Categories)[24] doluje asociaˇcn´ı pravidla z kompletn´ı mnoˇziny doku-ment˚u. Problémem metody ARC-AC je, ˇze obt´ıˇznˇe zpracovává kategorie, do kterých spadá jen malý poˇcet dokument˚u, viz.[1].

Na vstup klasifikátoru pˇredloˇz´ıme kolekci dokument˚u (obecnˇe jakýchkoliv dat), po proveden´ı ˇrady krok˚u je nalezen klasifikaˇcn´ı model. Prvn´ım krokem v tomto netriviáln´ım procesu je pˇredzpracován´ı vstupn´ıch dat1. Dalˇs´ım krokem je vybudován´ı asociaˇcn´ıho klasi-fikátoru hledán´ım asociaˇcn´ıch pravidel algoritmem Apriori.2, Jakmile je vygenerovaná mnoˇzina asociaˇcn´ıch pravidel, d˚uleˇzitým krokem je pouˇzit´ı proˇrezávac´ıch technik vedouc´ıch k redukci poˇctu pravidel. Fáze redukce pravidel je velice d˚uleˇzitá, nebot’ velké mnoˇzstv´ı pravidel má zásadn´ı vliv na rychlost klasifikátoru. Po proˇrezán´ı pravidel je vytvoˇren asociaˇcn´ı klasi-fikátor - jeho znalostn´ı bázi tvoˇr´ı prozeˇraná asociaˇcn´ı pravidla. V posledn´ım kroku se vytvoˇrenému klasifikátoru pˇredkládá dokument ke klasifikaci a klasifikátor se snaˇz´ı pˇredpovˇedˇet do které tˇr´ıdy (resp. tˇr´ıd) dokument náleˇz´ı. Princip ˇcinnosti klasifikátoru zaloˇzeného na gen-erován´ı asociaˇcn´ıch pravidel je zobrazen na Obrázku 7.3

1_{Data mohou b´}_{yt v surov´}_{e podobˇ}_{e zaˇ}_sumˇ_en´_{a, ne´}_upln´_{a, ˇ}_{ci duplicitn´ı, pro spr´}_{avnou funkˇ}_{cnost klasifik´}_atoru

je potˇreba tyto neduhy odstranit; viz napˇr. [11]

2_{Algoritmus Apriori je jednoduch´}_{y algoritmus pro hled´}_{an´ı asociaˇ}_{cn´ıch pravidel, jeho nev´}_{yhodou je (v}

pˇr´ıpadˇe velkého mnoˇzstv´ı dat) velká ˇcasová nároˇcnost a nutnost m´ıt stále aktivn´ı pˇr´ıstup ke zdroji dat (napˇr. databáze). Nen´ı problém nahradit algoritmus Apriori jiným, výkonnˇejˇs´ım, algoritmem (napˇr. algoritmem FPTree[11]), nicménˇe pro pouˇzit´ı v klasifikátoru, kde k fázi trénován´ı docház´ı pouze zˇr´ıdka, nen´ı jeho pouˇzit´ı nezbytné.

(22)

Obrázek 3.3: Data z trénovac´ı mnoˇziny jsou pˇredzpracovaná a jsou z nich vydolované asociaˇcn´ı pravidla. Na základˇe pravidel je natrénován asociaˇcn´ı klasifikátor. Odbdobným zp˚usobem probˇehne nalezen´ı pravidel u testovac´ı mnoˇziny dat; tato pravidla ale slouˇz´ı k validaci klasifikátoru.

V dalˇs´ıch ˇcástech této kapitoly budou popsány jednotlivé fáze ˇcinnosti algoritmu, tj. fáze pˇredzpracován´ı dat, dolován´ı asociaˇcn´ıch pravidel, proˇrezán´ı asociaˇcn´ıch pravidel a fáze klasifikace nového dokumentu.

3.3.2 Pˇredzpracov´an´ı dat

Dalˇs´ı z mnoha výhod metody spoˇc´ıvá ve snadném pˇrizp˚usoben´ım se na r˚uzné zdroje dat -textová data, relaˇcn´ı, transakˇcn´ı aj. Origináln´ı verze metody pracuje nad textovými daty a oˇcekává dokumenty ve tvaru Di={Cati, t1, t2, t3,. . . tn. Pro správnou funkˇcnost

klasi-fikátoru je nutné data pˇrevést do této podoby, nebo modifikovat algoritmus pro dolován´ı asociaˇcn´ıch pravidel. Teoreticky je moˇzné pouˇz´ıt jakýkoliv algoritmus pro dolován´ı aso-ciaˇcn´ıch pravidel, ˇc´ımˇz se znaˇcnˇe rozˇsiˇruj´ı moˇznosti klasifikace.

3.3.3 Dolov´an´ı asociaˇcn´ıch pravidel

Pokud jiˇz máme pˇripravena vstupn´ı data, algoritmem Apriori se vygeneruj´ı asociaˇcn´ı pravidla. V nˇekterých pˇr´ıpadech (velmi ˇcasto) m˚uˇzeme narazit na problém, ˇze vygenerovaných pravidel je pˇr´ıliˇs velké mnoˇzstv´ı, z toho ˇrada m˚uˇze být pro klasifikaci zbyteˇcná. Z tˇechto d˚uvod˚u se generuj´ı pouze pravidla, které maj´ı na pravé stranˇe oznaˇcen´ı nˇejaké tˇr´ıdy ci.

(23)

Algoritmus 1 ARC-BC Dolov´an´ı asociaˇcn´ıch pravidel v dokumentech

Vstup: Mnoˇzina dokument˚u D ve tvaru Di={Cati, t1, t2, t3,. . . tn }, kde Cati je

kate-gorie pˇriˇrazená dokumentu, tn jsou vybrané výrazy; Minimáln´ı spolehlivost minsupp;

Minim´aln´ı spolehlivost minconf;

V´ystup: Mnoˇzina asociaˇcn´ıch pravidel ve tvaru t1∧ t2∧ t3∧ . . . ∧ tn⇒ Cati kde Cati je

kategorie a tj je nˇejak´y v´yraz;

1: C1 ←{ Kandid´ati na 1-frekventovan´e mnoˇziny a jejich podpora }

2: F1 ←{ Frekventovan´e 1-mnoˇziny a jejich podpora }

3: i = 2 4: while Fi−16= ∅ do 5: pi1 = i/2 6: pi2 = i − pi1 7: Ci= Fp_i1 ./ Fp_i2 8: Ci= Ci− {c|sizeof (c) 6= i} 9: Fi= {c ∈ Ci|support(c) ≥ minsupp} 10: end while 11: M =S i{c ∈ Fi|i ≥ 1} 12: R = ∅

13: for all frequent itemsets f in M do

14: najdi vˇsechny dx z D, kter´e obsahuj´ı f , a vytvoˇr asociaˇcn´ı pravidla rx: f ⇒ Catx

15: if confidence(rx) ≥ minconf then

16: R = R ∪ rx

17: end if

18: end for

V kroc´ıch (1 a 2) jsou nalezeni kandidáti na frekventované 1-mnoˇziny. V praxi to zna-mená nalézt takové výrazy, které jsou pravdivé v tolika dokumentech F , aby byla splnˇena podm´ınka minimáln´ı podpory minsupp. Vytváˇren´ı i-frekventovaných mnoˇzin prob´ıhá spo-jen´ım jiˇz vytvoˇrených frekventovaných mnoˇzin niˇzˇs´ıho ˇrádu (kroky 4 − 11). Generován´ı se opakuje tak dlouho, dokud v daném kroku i, i ≥ 2 nejsou nalezené ˇzádné frekven-tované i-mnoˇziny. Po nalezen´ı vˇsech frekventovaných mnoˇzin Fi|i ≥ 1 v mnoˇzinˇe

doku-ment˚u D se nalezne mnoˇzina asociaˇcn´ıch pravidel MR, kter´a obsahuje pravidla R ve tvaru

R : t1∧ t2∧ t3∧ . . . ∧ tn⇒ Cati, viz. kroky (12 − 16).

3.3.4 Proˇrez´av´an´ı asociaˇcn´ıch pravidel

Výstupem pˇredchoz´ı fáze metody byla sada asociaˇcn´ıch pravidel, která jistým zp˚usobem popisuj´ı textový dokument. Tˇechto pravidel m˚uˇze být v nˇekterých pˇr´ıpadech velké mnoˇzstv´ı, coˇz zp˚usobuje r˚uzné komplikace pˇri následné klasifikaci.

Jednak muˇze obrovském mnoˇzstv´ı pravidel obsahovat ˇsum vedouc´ı k chybám pˇri klasi-fikaci, se zvyˇsuje doba klasifikace. Pro ˇreˇsen´ı problému velkého poˇctu pravidel se provád´ı proˇrezán´ım asociaˇcn´ıch pravidel - odstranˇen´ım irelevantn´ıch a málo obecných pravidel. V pˇr´ıpadˇe, kdy poˇzadujeme opravdu rychlé odezvy (online zpracován´ı dotaz˚u atd . . . ) je proˇrezán´ı asociaˇcn´ıch pravidel jiˇz v´ıce ménˇe nutnost´ı, neˇz moˇznost´ı k pˇr´ıpadnému urychlen´ı. Pˇred samotným proˇrezán´ım je výhodné urˇcit poˇrad´ı, ve kterém se budou pravidla v mnoˇzinˇe zpracovávat podle Definice 3.3.5:

(24)

1. health=bad ∧ finance=bad ∧ children=0 ⇒ Class=looser (0.03, 0.85) 2. health=bad ∧ finance=perfect ∧ children=2 ⇒ Class=lucky (0.2, 0.95) 3. health=bad ⇒ Class=looser (0.4, 0.98)

4. health=good ∧ finance=bad ⇒ Class=healthy (0.23, 0.77)

Tabulka 3.1: Mnoˇzina R asociaˇcn´ıch pravidel nalezen´ych v prvn´ıch f´azi

Definice 3.3.5 Mˇejme pravidla R1: T 1 ⇒ C a R2: T 2 ⇒ C. Potom pravidlo R1 je obecnˇejˇs´ı neˇz pravidlo R2 pr´avˇe tehdy, kdyˇz T 1 ⊆ T 2.

Algoritmus pro proˇrezán´ı pravidel je postaven na jednoduchém principu - projdi mnoˇzinu vˇsech asociaˇcn´ıch pravidel, ponechej nejv´ıce obecná pravidla (s malým poˇctem výraz˚u na levé stranˇe) s nejvyˇsˇs´ı spolehlivost´ı, ostatn´ı pravidla smaˇz. [1] navrhuj´ı algoritmus, který provád´ı jeˇstˇe agresivnˇejˇs´ı redukci poˇctu asociaˇcn´ıch pravidel, nicménˇe pro úˇcely dolován´ı napˇr. vizuáln´ıch vlastnost´ı plnˇe vystaˇcuje postup podle Algoritmu 2.

Pˇredpokládejme, ˇze dolovac´ı algoritmus s fáze 1 naˇsel sadu asociaˇcn´ıch pravidel, která je v Tabulce 1.1. Mnoˇzina obsahuje ˇctveˇrici pravidel, která klasifikuj´ı ˇclovˇeka podle hodnot atribut˚u health, finance a children do jedné ze tˇr´ıd {looser, healthy, lucky}. V závorce za aso-ciaˇcn´ımi pravidly je hodnota podpory pravidla support a hodnota spolehlivosti asociaˇcn´ıho pravidla confidence.

Tato pravidla jsou vstupem pro algoritmus proˇrez´an´ı pravidel, kter´y zjist´ı, ˇze pravidlo ˇ

c. 3 svými atributy na levé stranˇe pokrývá pravidlo 1 a 2, pˇriˇcemˇz spolehlivost pravidla 3 je vyˇsˇs´ı neˇz spolehlivost 1. a 2. pravidla. Proto budou prvn´ı dvˇe pravidla odstranˇeny. Odstranˇen´ı pravidel je zcela logickým krokem - proˇc uchovávat pravidla, která maj´ı niˇzˇs´ı, pˇr´ıp. stejnou podporu (pravidlo t1 ⇒ c1 má vˇzdy vyˇsˇs´ı, nebo stejnou podporu jako pravidlo

t1∧ t2 ⇒ c1) a z´aroveˇn nemaj´ı vyˇsˇs´ı spolehlivost?

Algoritmus 2 Proˇrez´an´ı asociaˇcn´ıch pravidel

Vstup: Mnoˇzina R asociaˇcn´ıch pravidel z´ıskaných ve fáz´ı dolován´ı asociaˇcn´ıch pravidel Výstup: Zredukovaná mnoˇzina asociaˇcn´ıch pravidel R0 obsahuj´ıc´ı pravidla, která budou

pouˇzita ve f´azi klasifikace

1: Seˇrad’ pravidla v R podle Definice 3.3.5

2: for all pravidla r in R do

3: najdi pravidla, která jsou v´ıce obecná, neˇz r a odstraˇn ta, která maj´ı niˇzˇs´ı spolehlivost, neˇz má r

4: end for

3.3.6 Klasifikace nov´eho dokumentu

Mnoˇzina asociaˇcn´ıch pravidel, která proˇsla s´ıtem prozeˇrán´ı pravidel v pˇredchoz´ım kroku tvoˇr´ı znalostn´ı bázi klasifikátoru. Podle tˇechto pravidel se bude klasifikaˇcn´ı algoritmus snaˇzit pˇredpovˇedˇet, do které tˇr´ıdy novˇe pˇr´ıchoz´ı dokument patˇr´ı.

Proces pˇredpovˇedi prob´ıhá tak, ˇze klasifikátor procház´ı asociaˇcn´ı pravidla ve znalostn´ı bázi a zkouˇs´ı, jestli levé strany pravidel (kde jsou výrazy) pokrývaj´ı nový dokument. V takovém pˇr´ıpadˇe se pˇriˇrad´ı s jistou pravdˇepodobnost´ı dokument do tˇr´ıdy, která je na pravé stranˇe testovaného asociaˇcn´ıho pravidla.

(25)

Obecnˇe m˚uˇzeme rozliˇsit dva typy klasifikace. Nejjednoduˇsˇs´ı zp˚usob zaˇrazuje novˇe pˇr´ıchoz´ı dokument právˇe do jedné tˇr´ıdy; do té, která je podpoˇrena nejvyˇsˇs´ım souˇctem spolehlivost´ı asociaˇcn´ıch pravidel pokrývaj´ıc´ıch dokument. Nevýhodou tohoto jednoduchého zp˚usobu klasifikace je, ˇze dokument m˚uˇze m´ıt spoleˇcné prvky s v´ıce tˇr´ıdami a klasifikátor vybere pouze nejv´ıce dominantn´ı tˇr´ıdu.

Sofistikovanˇejˇs´ı zp˚usob umoˇzˇnuje dokument pˇriˇradit do v´ıce tˇr´ıd. Origináln´ı metoda prezentovaná v [1] k tomu vyuˇz´ıvá tzv. dominantn´ı faktor. V této práci byla pouˇzita zjednoduˇsená metodu, která rozdˇel´ı pravidla pokrývaj´ıc´ı dokument podle kategorie na pravé stranˇe, a podle spolehlivosti pravidel pro kaˇzdou tˇr´ıdu urˇci, jak velká je d˚uvˇera v to, ˇze dokument patˇr´ı právˇe do té konkrétn´ı tˇr´ıdy.

Algoritmus 3 Klasifikace nov´eho dokumentu

Vstup: Nový dokument o; asociativn´ı klasifikátor (ARC); minimáln´ı spolehlivost (práh spolehlivosti) c

Výstup: Kategorie, ke kterým je nový dokument pˇriˇrazen;

1: S ← ∅

2: for all asociaˇcn´ı pravidla r v ARC do

3: if r ⊂ o then

4: proved’ cnt = cnt + 1

5: end if

6: if cnt == 1 then

7: f rc ← spolehlivost pravidla r

8: pˇridej pravidlo r do mnoˇziny S

9: else if spolehlivost pravidla r > f rc − c then

10: pˇridej pravidlo r do mnoˇziny S

11: else

12: exit

13: end if

14: end for

15: rozdˇel mnoˇzinu S do mnoˇzin podle kategori´ı: S1, S2, . . . , Sn

16: for all vytvoˇren´e mnoˇziny S1, S2, . . . , Sn do

17: spoˇc´ıtej souˇcet spolehlivost´ı pravidel v mnoˇzinˇe Sk a vydˇel tento souˇcet poˇctem

pravidel v Sk

18: end for

(26)

Kapitola 4

N´

avrh syst´

emu pro klasifikaci

webov´

ych str´

anek

V pˇredchoz´ıch kapitolách byl diskutován problém klasifikace dokument˚u, vˇcetnˇe dokument˚u na Webu, byly vysvˇetleny metody, které byly pro klasifikaci s postupem ˇcasu navrˇzené a následnˇe otestované. Práce se zamˇeˇruje na klasifikace webových stránek z pohledu návrhu komplexn´ıho klasifikátoru, tedy klasifikátoru, který by souˇcasnˇe klasifikoval na základˇe tex-tového charakteru dat a zároveˇn na základˇe vizuáln´ıch vlastnost´ı (rozloˇzen´ı stránky) ve formˇe dat relaˇcn´ıch. Této úloze se zat´ım podrobnˇejˇs´ı výzkumy vyhýbaly, ˇcásteˇcnˇe se prob-lematice klasifikace podle vzhledu stránek vˇenuje [20].

C´ılem práce bude pokusit se o pˇrizp˚usoben´ı textového klasifikaˇcn´ı metody ARC-BC pro relaˇcn´ı data. Metoda byla vybraná jednak s ohledem na dostateˇcnou pˇresnost klasifikace textových dat [1], jednak proto, ˇze jsou výsledky metody ve formˇe asociaˇcn´ıch pravidel snadno srozumitelné a pˇrehledné. Dalˇs´ım d˚uvodem bylo to, ˇze znalosti ve formˇe asociaˇcn´ıch pravidel maj´ı dobrý pˇredpoklad být vhodným typem pro klasifikaci právˇe relaˇcn´ıch dat.

4.1 Popis

V pˇr´ıpadˇe dobrých výsledk˚u klasifikace výˇse zm´ınˇeného klasifikátoru by bylo moˇzné jednoduchým zp˚usobem sestrojit multikriteriáln´ı klasifikaˇcn´ı systém pro klasifikaci webových stránek. Takový systém by sestával z následuj´ıc´ıch ˇcást´ı:

• Systém pro extrakci vizuáln´ıch vlastnost´ı z webových stránek

Jedn´ım z problém˚u klasifikace podle vizuáln´ıch vlastnost´ı je vydolován´ı informac´ı z webových stránek. Touto problematikou se zabývá Ing. Radek Burget PhD., který pro potˇreby projektu poskytne data z´ıskaná vizuáln´ım analyzátorem webových stránek. Analyzátor pracuje na principu detekce oblast´ı webové stránky.

• Systém pro extrakci textových informac´ı z webových stránek

Tato ˇcást systému by se starala o extrakci textových dat z webových stránek. • Klasifikátor ARC-BC

Samotná klasifikace pˇripravených dat by byla jednoduˇsˇse realizovaná ARC-BC klasi-fikátorem, který bude sestávat z vˇsech pˇr´ısluˇsných ˇcást´ı - z ˇcásti pro dolován´ı aso-ciaˇcn´ıch pravidel, z ˇcásti pro proˇrezán´ı asociaˇcn´ıch pravidel a z ˇcásti pro klasifikaci nových dokument˚u. Klasifikátor by ze vstupn´ıch textových dat a dat vizuáln´ıch vlast-nost´ı klasifikoval stránku do pˇr´ısluˇsné tˇr´ıdy.

(27)

Obrázek 4.1: Systém pro klasifikaci webových stránek podle vizuáln´ıch vlastnost´ı

Obrázek 4.1 zachycuje princip ˇcinnosti klasifikaˇcn´ıho systému (zde pouze vizuáln´ıch vlastnost´ı). Nejdˇr´ıve docház´ı k výbˇeru stránek, které budou reprezentovat trénovac´ı mnoˇzinu. Analyzátor vizuáln´ıch vlastnost´ı z nich potom vydoluje informace o vzhledu a poˇsle je do systému pro pˇredzpracován´ı dat. Zde se provede selekce relevantn´ıch vlastnost´ı a transfor-mace dat do vhodné podoby. Klasifikátor pouˇzije tato data pro natrénován´ı a otestován´ı vlastnost´ı. Podle dosaˇzených výsledk˚u pak dojde bud’ k dalˇs´ım pokus˚um s výbˇerem vlast-nost´ı pro klasifikaci (pˇr´ıp. k výbˇeru nové mnoˇziny stránek), nebo se proces klasifikace ukonˇc´ı a klasifikátor bude pˇripravený pro klasifikaci stránek.

4.2 C´ıl projektu

Hlavn´ı idea projektu tkv´ı v centralizovaném pojet´ı klasifikace webových stránek. Je známo mnoho metod pro klasifikaci textových dat, stejnˇe tak mnoho metod pro klasifikaci dat relaˇcn´ıch. C´ılem této práce je pouˇz´ıt nˇekterou ze staváj´ıc´ıch klasifikaˇcn´ıch metody a pokusit se ji pˇrizp˚usobit pro relaˇcn´ı data, ˇc´ımˇz by bylo následnˇe moˇzné jej vyuˇz´ıt pro zpracovan´ı strukturované(semistukturované) i nestrukturované ˇcásti webového dokumentu. Pro tento ´

uˇcel jsem zvolil metodu ARC-BC.

Je zˇrejmé, ˇze v pr˚ubˇehu adaptace klasifikátoru na relaˇcn´ı data bude potˇreba modifikovat algoritmus metody ARC-BC a zabývat se problémy (jako napˇr. diskretizace num. atribut˚u), o kterých v pˇr´ıpadˇe dat textových nen´ı nutné uvaˇzovat.

Sestrojená klasifikaˇcn´ı metoda bude po implementaˇcn´ı ˇcásti podrobena d˚ukladnému testován´ı s c´ılem urˇcit m´ıru jej´ı pouˇzitelnosti na relaˇcn´ıch datech. Pro testován´ı budou mimo urˇcených dat z´ıskaných analýzou oblast´ı stránek pouˇzité nav´ıc dalˇs´ı dva datové soubory.

(28)

Kapitola 5

Vstupn´ı data

V této kapitola budou pˇredstaveny vstupn´ı datové soubory pro klasifikace. Hlavn´ım zdro-jem dat jsou data z´ıskané analýzou vizuáln´ıch vlastnost´ı stránek. Daˇsimi pouˇzitými daty, která jsou urˇcena pro pˇr´ımé porovnán´ı vlastnostn´ı klasifikaˇcn´ı metody, jsou datové soubory NURSERY a ADULT.

Následuj´ıc´ı ˇcást práce se vˇenuje podrobnému popisu tˇechto datových soubor˚u, zejména pak atribut˚um záznam˚u a jejich moˇzným hodnotám.

5.1 Popis dat ke klasifikaci

Data z´ıskaná analýzou oblast´ı jsou uloˇzena v jedné tabulce relaˇcn´ı databáze a odpadá tak práce s vytváˇren´ım dotaz˚u pro spojován´ı tabulek. Celkem je v datech sledováno 9 atribut˚u oblast´ı webových stránek, atribut category u kaˇzdého záznamu tabulky udává pˇr´ısluˇsný typ oblasti stránky.

fontsize pr˚umˇerná velikost p´ısma v procentech, kde 100% je pr˚umˇerná velikost p´ısma v celém dokumentu

weight pˇrevaˇzuj´ıc´ı váha p´ısma v oblasti (tuˇcné nebo netuˇcné)

style pˇrevaˇzuj´ıc´ı sklon p´ısma v oblasti

(norm´aln´ı nebo sklonˇen´e)

aabove, abelow, aleft, aright poˇcet oblast´ı vyskytuj´ıc´ıch se nad, pod, vlevo a vpravo od dané oblasti v rámci rodiˇcovské oblasti

tlength poˇcet znak˚u textu v oblasti

tdigits, tlower, tupper, tspaces poˇcet ˇc´ıslic, mal´ych a velk´ych p´ısmen abecedy a mezer v textu

textbtns pr˚umˇern´a svˇetelnost (luminosity) textu

bgbtns pr˚umˇern´a svˇetelnost pozad´ı

contrast pr˚umˇern´y rozd´ıl svˇetelnosti textu a pozad´ı

Tabulka 5.1: Popis atribut˚u oblast´ı testovac´ıch dat ([Kunc, Burget])

(29)

ˇ

cástem webových stránek.

h1 nadpis hlavn´ıho ˇclánku h2 nadpis bˇeˇzného ˇclánku

h3 nadpis aktuality nebo zprávy mˇenˇs´ıho významu (upoutávky apod.) aktualita krátká zpráva nebo aktualita

menu navigaˇcn´ı oblast

date datum publikován´ı, obvykle i se jménem autora none ostatn´ı neanotované oblasti

Tabulka 5.2: Vybran´e tˇr´ıdy pro klasifikaci testovac´ıch dat([Kunc, Burget])

5.1.1 Format ARFF a jeho pˇrevod

Datový formát ARFF(Attribute-Relation File Format ) je formát textového souboru s daty uloˇzenými ve formˇe tabulek (jak je tomu obdobnˇe u relaˇcn´ıch databáz´ı). Formát ARFF je urˇcen zejména pro pouˇzit´ı s dolovac´ım systémem Weka, který také umoˇzˇnuje exportovat data z ARFF do CSV souboru. Z tohoto souboru jsou následnˇe data do databáze vloˇzena standartn´ım pˇr´ıkazem jazyka SQL.

5.2 Popis dat testovac´ı datab´

aze NURSERY

Databáze NURSERY byla vytvoˇrena z hierarchického rozhodovac´ıho modelu sestrojeného jako zdroj dat pro ohodnocen´ı ˇzadatel˚u o m´ısto v mateˇrské ˇskolce. Z d˚uvodu velkého zájmu rodiˇc˚u o um´ıstˇen´ı d´ıtˇete do mateˇrské ˇskolky a kapacitn´ıch omezen´ı nebylo moˇzné pˇrijmout vˇsechny ˇzadatele a ˇskolka pˇrij´ımala pouze nˇekteré pˇredˇskoláky. A jak tomu vˇetˇsinou bývá, byla snaha o pˇrijet´ı “nejvhodnˇejˇs´ıch” ˇzadatel˚u, resp. nepˇrijet´ı potenciálnˇe problematických dˇet´ı (napˇr. z d˚uvod˚u obavy z infekˇcn´ıch nemoc´ı, neplacen´ı ˇskolného atd...). O kaˇzdém ˇ

zadateli je v databáz´ı vedeno osm atribut˚u a tˇr´ıda (C1 - C5) do které byl ˇzadatel podle hodnot atribut˚u zaˇrazen. Celá databáze má podobu jedné tabulky se vˇsemi potˇrebnými ´

udaji.

Zvláˇstnost´ı databáze NURSERY je fakt, ˇze domény atribut˚u maj´ı velmi malý poˇcet prvk˚u a nav´ıc jsou tyto atributy nenumerického charakteru - jedná se o ˇretˇezce znak˚u. Proto nen´ı nutné provádˇet diskretizaci numerických atribut˚u a výsledky klasifikace datového souboru NURSERY mohou být pouˇzity pro urˇcen´ı vlastnost´ı samotné klasifikaˇcn´ı metody nezat´ıˇzené moˇznými zkreslenými údaji diskretizaˇcn´ıho algoritmu.

parents vztahy mezi rodiˇcem a d´ıtˇetem {usual, pretentious, great pret} has nurs z´azem´ı d´ıtˇete {usual, pretentious, great pret}

form rodinn´y stav {completen, completed, incomplete, foster} children poˇcet dˇet´ı v rodinˇe {1, 2, 3, more}

housing stav bydlen´ı rodiny d´ıtˇete{convenient, less conv, critical} social soci´aln´ı schopnosti {non pron, slightly prob, problematic} health zdravotn´ı vztah d´ıtˇete{recommended, priority, not recom}