• No results found

Web Page Classification

N/A
N/A
Protected

Academic year: 2021

Share "Web Page Classification"

Copied!
56
0
0

Loading.... (view fulltext now)

Full text

(1)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

YCH SYST ´

EM ˚

U

FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER SYSTEMS

KLASIFIKACE WEBOV ´

YCH STR ´

ANEK

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

Bc. ROMAN KOL ´

A ˇ

R

AUTHOR

(2)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

YCH SYST ´

EM ˚

U

FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER SYSTEMS

KLASIFIKACE WEBOV ´

YCH STR ´

ANEK

WEB PAGE CLASSIFICATION

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

Bc. ROMAN KOL ´

A ˇ

R

AUTHOR

VEDOUC´I PR ´

ACE

Ing. VLADIM´IR BART´IK, PhD.

SUPERVISOR

(3)

Abstrakt

Pr´ace se zab´yv´a problematikou automatick´e klasifikace webov´ych str´anek s vyuˇzit´ım aso-ciaˇcn´ıho klasifik´atoru. Je pˇredstavena klasifikace, jakoˇzto jeden z obor˚u dolov´an´ı znalost´ı z datab´az´ı; zvl´aˇstn´ı prostor je vˇenov´an klasifikaci textov´ych dat. Jsou diskutov´any r˚uzn´e metody klasifikace textov´ych dokument˚u se zd˚uraznˇen´ım v´yhod klasifik´ator˚u vyuˇz´ıvaj´ıc´ıch pro rozhodov´an´ı asociaˇcn´ı pravidla. C´ılem pr´ace je pokusit se pˇrizp˚usobit vybranou klasi-fikaˇcn´ı metodu pro relaˇcn´ı data a navrhnout syst´em pro klasifikaci webov´ych str´anek po-dle vizu´aln´ıch vlastnost´ı - rozloˇzen´ı jednotliv´ych oblast´ı na str´ance, nikoliv podle ˇcist´eho textov´eho obsahu. K tomu je vyuˇzit´y asociaˇcn´ı klasifik´ator ARC-BC kombinuj´ıc´ı v´yhody zn´am´ych klasifikaˇcn´ıch metod.

Kl´ıˇ

cov´

a slova

klasifikace, klasifik´ator, Web, dolov´an´ı znalost´ı, asociaˇcn´ı pravidlo, pˇresnost, data, diskretizace, kategorie, struktura, atribut, podpora, spolehlivost, text, interval

Abstract

This paper presents problem of automatic webpages classification using association rules based classifier. Classification problem is presented, as a one of datamining technique, in context of mining knowledges from text data. There are many text document classification methods presented with highlighting benefits of classification methods using association rules. The main goal of work is adjusting selected classification method for relation data and design draft of webpages classifier, which classifies pages with the aid of visual properties - independent section layout on the web page, not (only) by textual data. There is also ARC-BC classification method presented as a selected method and as one of intriguing classificators, that derives accuracy and understandableness benefits of all other methods.

Keywords

classification, classificator, Web, datamining, association rule, precission, data, discretiza-tion, category, structure, attribute, support, confidence, text, interval

Citace

Roman Kol´aˇr: Klasifikace webov´ych str´anek, diplomov´a pr´ace, Brno, FIT VUT v Brnˇe, 2008

(4)

Klasifikace webov´

ych str´

anek

Prohl´

sen´ı

Prohlaˇsuji, ˇze jsem diplomovou pr´aci vypracoval samostatnˇe.

. . . . Roman Kol´aˇr 15. kvˇetna 2008

c

Roman Kol´aˇr, 2008.

Tato pr´ace vznikla jako ˇskoln´ı d´ılo na Vysok´em uˇcen´ı technick´em v Brnˇe, Fakultˇe in-formaˇcn´ıch technologi´ı. Pr´ace je chr´anˇena autorsk´ym z´akonem a jej´ı uˇzit´ı bez udˇelen´ı opr´avnˇen´ı autorem je nez´akonn´e, s v´yjimkou z´akonem definovan´ych pˇr´ıpad˚u.

(5)

Obsah

1 Uvod´ 3

2 Dolov´an´ı znalost´ı z dat 5

2.1 Dolov´an´ı znalost´ı z textov´ych dat . . . 5

2.2 Zdroje dat pro dolov´an´ı znalost´ı . . . 6

2.2.1 Relaˇcn´ı datab´aze . . . 7

2.2.2 Transakˇcn´ı datab´aze . . . 7

2.2.4 Datov´y sklad . . . 7

2.3 Asociaˇcn´ı pravidla . . . 8

2.3.1 Algoritmus pro generov´an´ı siln´ych asociaˇcn´ıch pravidel . . . 9

2.3.2 Algoritmy pro generov´an´ı asociaˇcn´ıch pravidel . . . 9

2.4 Klasifikace . . . 9

2.4.1 Klasifikace jako metoda dolov´an´ı znalost´ı . . . 11

2.4.2 Hodnocen´ı klasifikaˇcn´ıch metod . . . 11

2.5 Tradiˇcn´ı klasifikaˇcn´ı metody . . . 13

2.5.1 Rozhodovac´ı stromy . . . 13

3 Klasifikace dokument˚u zaloˇzen´a na asociaˇcn´ıch pravidlech 14 3.1 Klasifikace textov´ych dokument˚u . . . 14

3.1.1 Praktick´e vyuˇzit´ı . . . 14

3.2 Klasifikace webov´ych str´anek . . . 15

3.2.1 Klasifikace s vyuˇzit´ım asociaˇcn´ıch pravidel . . . 16

3.3 Metoda ARC-BC . . . 17

3.3.1 Popis metody . . . 17

3.3.2 Pˇredzpracov´an´ı dat . . . 18

3.3.3 Dolov´an´ı asociaˇcn´ıch pravidel . . . 18

3.3.4 Proˇrez´av´an´ı asociaˇcn´ıch pravidel . . . 19

3.3.6 Klasifikace nov´eho dokumentu . . . 20

4 N´avrh syst´emu pro klasifikaci webov´ych str´anek 22 4.1 Popis . . . 22

4.2 C´ıl projektu . . . 23

5 Vstupn´ı data 24 5.1 Popis dat ke klasifikaci . . . 24

5.1.1 Format ARFF a jeho pˇrevod . . . 25

5.2 Popis dat testovac´ı datab´aze NURSERY . . . 25

(6)

6 Implementace klasifik´atoru 28

6.1 Celkov´y pohled . . . 28

6.1.1 Implementace dolov´an´ı frekventovan´ach mnoˇzin . . . 30

6.1.2 Implementace generov´an´ı asociaˇcn´ıch pravidel . . . 30

6.1.3 Implementace klasifikace dokument˚u . . . 30

6.1.4 Implementace diskretizace . . . 31

6.2 Bal´ıˇcek database . . . 31

6.2.1 Tˇr´ıda DBAccess . . . 31

6.2.2 Tˇr´ıda DBLoaderBC . . . 32

6.3 Bal´ıˇcek ARC-BC . . . 32

6.3.1 Tˇr´ıda ArcBC . . . 32 6.3.2 Tˇr´ıda ArcBCdiscretizer . . . 33 6.3.3 Tˇr´ıda ArcBCminer . . . 33 6.3.4 Tˇr´ıda ArcBCclassifier . . . 33 6.3.5 Tˇr´ıda Category . . . 33 6.3.6 Tˇr´ıda Document . . . 33

6.4 Bal´ıˇcek mining . . . 33

6.4.1 Tˇr´ıda fitem . . . 34

6.4.2 Tˇr´ıda LargeItemSet . . . 34

6.4.3 Tˇr´ıda Association Rule . . . 34

6.5 Bal´ıˇcek discretization . . . 34

6.5.1 Tˇr´ıda LookupTable . . . 35

6.5.2 Tˇr´ıda SimpleD . . . 35

6.5.3 Tˇr´ıda DiscInterval . . . 35

6.6 Naˇc´ıt´an´ı vstupn´ıch dat . . . 35

6.7 Probl´emy pˇri implementaci . . . 36

6.7.1 V´ypoˇcet spolehlivost asociaˇcn´ıch pravidel . . . 36

6.7.2 Diskretizace numerick´ych atribut˚u . . . 38

6.8 Shrnut´ı implementace . . . 39

7 Testov´an´ı 40 7.1 Ostr´a data z webu . . . 40

7.2 Datov´y soubor NURSERY . . . 41

7.3 Datov´y soubor ADULT . . . 42

7.4 Zhodnocen´ı proveden´ych test˚u . . . 42

8 Z´avˇer 44

9 Seznam pˇr´ıloh 48

Pˇr´ıloha A - Data z experiment˚u 49

(7)

Kapitola 1

´

Uvod

Mnoˇzstv´ı informac´ı obsaˇzen´ych na Webu je obrovsk´e a kaˇzd´ym rokem se mohutnˇe zvˇetˇsuje. Jiˇz v roce 2005 vyhled´avaˇc Google indexoval v´ıce neˇz 8 miliard webov´ych str´anek a toto ˇ

c´ıslo se prudk´ym tempem zvyˇsuje. ˇC´ım v´ıce prostor dokument˚u uloˇzen´ych na Webu roste, t´ım v´ıce roste tak´e potˇreba z´ısk´avat z tˇechto dat specifick´e informace. Data mining posky-tuje ˇradu technik pouˇziteln´ych pro vyhled´an´ı zaj´ımav´ych vzor˚u v datech a pro vyj´adˇren´ı tˇechto vzor˚u jako smyslupln´ych informac´ı pro koncov´e uˇzivatele. Jednou z technik dolov´an´ı znalost´ı z dat tak´e je klasifikace, kter´a hraje d˚uleˇzitou roli v mnoha oblastech ˇr´ızen´ı a sbˇeru informac´ı.

Klasifikace webov´ych str´anek m´a za c´ıl automatizovan´e rozpozn´av´an´ı t´ematu, kter´emu se str´anka vˇenuje, a m˚uˇze b´yt napˇr´ıklad vyuˇzita pro kategorizaci str´anek do urˇcit´ych tˇr´ıd, ˇ

ci upˇresnˇen´ı vyhled´avac´ıch dotaz˚u.

V´yznamnou vlastnost´ı webov´ych str´anek je jejich semistrukturovanost. Hol´a textov´a ˇ

c´ast pˇredstavuje nestrukturovanou ˇc´ast str´anky, HTML znaˇcky a jejich obsah potom struk-turovanou. Tato vlastnost webov´ych str´anek indikuje pouˇzit´ı odliˇsn´ych technik pro klasi-fikaci (a dolov´an´ı dat obecnˇe), neˇz je tomu u obyˇcejn´ych textov´ych dokument˚u, nebo plnˇe strukturovan´ych relaˇcn´ıch a transakˇcn´ıch dat.

Prozat´ım se vˇetˇsina v´yzkum˚u klasifikace webov´ych str´anek vˇenuje pˇredevˇs´ım klasifikaci podle textov´eho, pˇr´ıpadnˇe multimedi´aln´ıho obsahu, nebo podle struktury cel´eho webu.

Tato pr´ace se vˇenuje klasifikaci webov´ych str´anek jakoˇzto procesu komplexn´ıho ohod-nocen´ı webov´e str´anky podle v´ıce kriteri´ı, neˇz je jen pouh´a anal´yza textov´eho obsahem. Zamˇeˇruje se pˇritom zejm´ena na viz´aln´ı vzhled, tedy rozm´ıstˇen´ı v´yznamn´ych, logicky samo-statn´ych, oblast´ı na str´ance.

V dˇr´ıvˇejˇs´ıch v´yzkumech a prac´ıch byla navrˇzena ˇrada klasifikaˇcn´ıch metod, jako jsou rozhodovac´ı stromy[18, 5], Bayesovsk´e klasifikaˇcn´ı metody[6, 23, 17], na pravidlech zaloˇzen´a klasifikace [21, 14, 1, 13], ˇci r˚uzn´e statistick´e pˇr´ıstupy. Tyto vˇetˇsinou vych´azej´ı z pˇr´ıstup˚u pouˇz´ıvan´ych v jin´ych oblastech dolov´an´ı znalost´ı a vedou z´ısk´an´ı reprezentativn´ıho vzorku jist´ych znalost´ı (pravidel) z tr´enovac´ı mnoˇziny, kter´e jsou n´aslednˇe pouˇzit´e pro klasifikaci nov´ych dat. Jednou z nov´ych metod je tak´e metoda ARC-BC vyuˇz´ıvaj´ıc´ı asociaˇcn´ı pravidla a dosahuj´ıc´ı pˇri jej´ı nativn´ı ´uloze klasifikace textov´ych dat velice dobr´ych v´ysledk˚u.

V n´asleduj´ıc´ıch kapitol´ach bude pˇredstavena problematika dolov´an´ı znalost´ı z doku-ment˚u se zamˇeˇren´ım na klasifikaci, samostatn´a ˇc´ast bude vyhrazena pro klasifikaci webov´ych dokument˚u s vyuˇzit´ım asociaˇcn´ıch pravidel(Kapitola 3). Vysvˇetlen´ım z´akladn´ıch pojm˚u klasifikace a asociaˇcn´ıch pravidel a jejich zaˇrazen´ı do dolov´an´ı znalost´ı jako celku se vˇenuje Kapitola 2. V Kapitole 3 bude mj. pops´an a vysvˇetlen princip klasifikaˇcn´ı metody ARC-BC a vyzdviˇzeny v´yhody oproti ostatn´ım klasifikaˇcn´ım metod´am. Kapitola 5 pak pˇredstavuje

(8)

hrub´y n´avrh hypotetick´eho klasifikaˇcn´ıho syst´emu webov´ych str´anek zaloˇzen´eho na metodˇe ARC-BC a pracuj´ıc´ıho s daty z´ıskan´ymi anal´yzou vizu´aln´ıch vlastnostost´ı str´anky.

V implementaˇcn´ı ˇc´asti pr´ace bude kromˇe popisu z´akladn´ıch tˇr´ıd a bal´ıˇcku programu prezentov´an postup pˇri pˇretv´aˇren´ı metody ARC-BC pro relaˇcn´ı data. Z´avˇereˇcn´a kapitola shrnuje pr´aci jako celek, vysvˇetluje v´ysledky dosaˇzen´e pˇri experiment´aln´ıch klasifikac´ıch a otev´ır´a diskusi pro moˇzn´a navazuj´ıc´ı rozˇs´ıˇren´ı a vylepˇsen´ı.

(9)

Kapitola 2

Dolov´

an´ı znalost´ı z dat

Dolov´an´ı znalost´ı z dat ch´apeme jako extrakci zaj´ımav´ych vzor˚u z dat, kter´e jsou pˇredem nezn´am´e, skryt´e a potenci´alnˇe uˇziteˇcn´e. Data k extrakci maj´ı ve vˇetˇsinˇe pˇr´ıpad˚u velk´y ob-jem, ˇcasto se dolov´an´ı prov´ad´ı nad rozs´ahl´ymi datov´ymi sklady, ˇci produkˇcn´ımi datab´azemi. V´yznamnou vlastnost´ı vzor˚u, kter´e z dat pomoc´ı dolov´an´ı z´ısk´av´ame, je fakt, ˇze pˇred poˇc´atkem dolov´an´ı jsou v datech skryt´e, na prvn´ı pohled nezjistiteln´e. Dolov´an´ı pak pˇ redsta-vuje mocn´y n´astroj k jejich z´ısk´an´ı, pˇrestoˇze se na celou ˇradu dolovac´ıch technik m˚uˇze pohl´ıˇzet jen jako na “pouh´e” inteligentn´ı statistick´e metody.

Dolov´an´ı se uplatˇnuje vˇsude tam, kde doch´az´ı k rozs´ahl´emu sbˇeru dat a je potˇreba tato data jist´ym zp˚usobem analyzovat. Typick´ymi datov´ymi zdroji pro dolov´an´ı jsou finanˇcn´ı data, obchodn´ı data, ˇci data telekomunikaˇcn´ıch spoleˇcnost´ı. Za jeden z d˚uleˇzit´ych ´ukol˚u dolov´an´ı je anal´yza n´akupn´ıho koˇs´ıku, kter´a zkoum´a n´akupn´ı zvyky z´akazn´ık˚u.

2.1

Dolov´

an´ı znalost´ı z textov´

ych dat

Dolov´an´ı znalost´ı z textov´ych dat (TM - text mining) je jednou z ´uloh dolov´an´ı znalost´ı z dat. Poˇzadavek na dolov´an´ı textov´ych dat souvis´ı mj. s obrovsk´ym rozmachem elektron-icky uloˇzen´ych dokument˚u - emailov´ych zpr´av, vˇedeck´ych ˇcl´ank˚u, elektronick´ych knih a webov´ych str´anek. Zat´ımco ostatn´ı odvˇetv´ı data miningu se zamˇeˇruj´ı pˇredevˇs´ım na struk-turovan´a data jako jsou data relaˇcn´ı, transakˇcn´ı, ˇci data v datov´ych skladech, TM se snaˇz´ı z´ıskat informace nestrukturovan´ych, kde klasick´e metody DM selh´avaj´ı a kde jsou vyˇzadovan´e speci´aln´ı metody a algoritmy.

V souˇcasn´e dobˇe existuje k text miningu mnoho r˚uzn´ych pˇr´ıstup˚u a metod. Obecnˇe dˇel´ıme pˇr´ıstupy TM podle vstupn´ıch dat, kter´e zad´av´ame TM syst´emu na: (1) pˇr´ıstup zaloˇzen´y na kl´ıˇcov´ych slovech, kde jsou vstupn´ımy daty kl´ıˇcov´a slova dokumentu, (2) pˇr´ıstup zaloˇzen´y na znaˇck´ach, kde je vstupem jist´a mnoˇzina znaˇcek (tags), a (3) pˇr´ıstup zaloˇzen´y na extrakci informac´ı, vstupem jsou zde s´emantick´e informace, jako napˇr. ud´alosti, fakta. Pˇr´ıstup zaloˇzen´y na extrakci informac´ı je oproti ostatn´ım dvˇema pro-gresivnˇejˇs´ı a m˚uˇze v´est k nalezen´ı v´yznamnˇejˇs´ıch znalost´ı v datech, ale vyˇzaduje s´emantickou anal´yzu textov´eho dokumentu. Z tˇechto tˇr´ı z´akladn´ıch pˇr´ıstup˚u ˇcasem vznikalo ˇc´ım d´al v´ıce ´

uloh pro dolov´an´ı textov´ych dat jako jsou klasifikace dokument˚u, asociaˇcn´ı anal´yza, ex-trakce informac´ı, r˚uzn´e druhy asociaˇcn´ıch anal´yz, kter´e se dnes bˇeˇznˇe vyuˇz´ıvaj´ı pˇri ˇreˇsen´ı bˇeˇzn´ych probl´em˚u (filtrov´an´ı spamu, vyhled´av´an´ı str´anek ve webov´ych vyhled´avaˇc´ıch aj.).

(10)

Asociaˇcn´ı anal´yza kl´ıˇcov´ych slov

Asociaˇcn´ı anal´yza kl´ıˇcov´ych slov je anal´yza dokument˚u snaˇz´ıc´ı se nal´ezt mnoˇziny kl´ıˇcov´ych slov, ˇci v´yraz˚u, kter´e se vyskytuj´ı v textu ve vˇetˇs´ı frekvenci, neˇz ostatn´ı slova. Jako ˇrada dalˇs´ıch anal´yz prov´adˇen´ych v dokumentu vyˇzaduje asociaˇcn´ı anal´yza data vhodn´ym zp˚usobem pˇredzpracovan´a, napˇr. jsou nalezeny koˇreny vˇsech slov a odstranˇen´e spojky, pˇredloˇzky a dalˇs´ı irelevantn´ı slova (tzv. stop words). Po proveden´ı asociaˇcn´ı anal´yzy kl´ıˇcov´ych slov z´ısk´ame kolekci z´aznam˚u {documentId, setOfKeywords}, kter´a ke kaˇzd´emu dokumentu oznaˇcen´emu identifik´atorem documentId pˇriˇrazuje mnoˇzinu kl´ıˇcov´ych slov setOfKeywords. V souvis-losti s kl´ıˇcov´ymi slovy probˇehla ˇrada v´yzkum˚u - napˇr. vyuˇzit´ı kl´ıˇcov´ych slov pro dolov´an´ı znalost´ı[8].

Klasifikace dokument˚u

Klasifikace dokument˚u je d˚uleˇzitou ´ulohou dolov´an´ı znalost´ı. Existence velk´eho poˇctu on-line dokument˚u vyˇzaduje automatickou organizaci dokument˚u do kategori´ı podle dan´ych kriteri´ı. Kategorie, do kter´ych chceme dokument pˇriˇradit, mus´ı b´yt pˇredem zn´am´e (napˇr. mˇejme tˇr´ıdy Automobilismus, Pˇr´ırodn´ı t´ematika, Vˇedeck´a zpr´ava, a dokument nezn´am´eho obsahu, jenˇz chceme klasifikovat). Klasifikace dokument˚u se pouˇz´ıv´a v mnoha aplikac´ıch a existuje pro ni mnoho metod a algoritm˚u [15, 10]. Podrobnˇeji se klasifikaci dokument˚u vˇenuje ˇc´ast 2.1.

Shlukov´a anal´yza

Shlukov´a anal´yza dokument˚u je v´yznamn´a pro organizaci dokument˚u, o kter´ych nem´ame ˇ

z´adn´e informace. Oproti klasifikaci se liˇs´ı t´ım, ˇze nejsou pˇredem zn´am´e ˇz´adn´e tˇr´ıdy, do kter´ych by se dokumenty rozˇrazovaly. V pr˚ubˇehu anal´yzy se hledaj´ı v dokumentech zaj´ımav´e shluky (obdoba tˇr´ıd u klasifikace) dat, kter´e reprezentuj´ı mnoˇzinu spoleˇcn´ych vlastnost´ı dokument˚u.

Dolov´an´ı znalost´ı z Webu

Dolov´an´ı znalost´ı z webov´ych str´anek se snaˇz´ı z´ıskat informace uloˇzen´ych ve webov´ych str´ank´ach. C´ılem je stejnˇe jako u bˇeˇzn´ych nestrukturovan´ych dokument˚u z´ıskat d˚uleˇzit´e informace o obsahu webov´e dokumentu - napˇr. jeho klasifikace do tˇr´ıd, nalezen´ı kl´ıˇcov´ych slov aj., pˇriˇcemˇz se nehled´ı na strukturu vybran´eho webu, pouze na obsah. V tomto smˇeru lze na webovou str´anku pohl´ıˇzet jako na textov´y dokument [7, 19] s pˇr´ıpadn´ym rozˇs´ıˇren´ım o multimedi´aln´ı prvky - obr´azky.

Dolov´an´ı znalost´ı ze struktury webov´eho dokumentu

Dolov´an´ı znalost´ı ze struktury webov´eho dokumentu se tak´e zamˇeˇruje na webov´e str´anky, ale snaˇz´ı se zjistit informace nikoliv z textov´eho obsahu dokumentu, n´ybrˇz ze struktury webov´ych str´anek. Pˇritom se uplatˇnuj´ı r˚uzn´e zp˚usoby, jako napˇr. reprezentace webov´ych str´anek jako grafu [16], ˇci klasifikace webov´ych str´anek podle anal´yzy struktury cel´eho webu [9]. Dalˇs´ı moˇznost´ı dolov´an´ı znalost´ı ze struktury je anal´yza a sledov´an´ı hypertextov´ych od-kaz˚u str´anek [4, 3, 2, 22].

2.2

Zdroje dat pro dolov´

an´ı znalost´ı

Principielnˇe m˚uˇzeme znalosti dolovat z jak´ehokoliv uloˇziˇstˇe informac´ı. Mezi nejˇcastˇeji pouˇz´ıvan´e zdroje dat pro dolov´an´ı potom patˇr´ı zejm´ena:

(11)

• relaˇcn´ı datab´aze • transakˇcn´ı datab´aze • datov´e sklady

• ostatn´ı (textov´e datab´aze, objektovˇe orientovan´e datab´aze. . . )

2.2.1 Relaˇcn´ı datab´aze

Relaˇcn´ı datab´aze je datab´aze zaloˇzen´a na relaˇcn´ım modelu dat a relaˇcn´ı algebˇre. Data jsou uspoˇr´ad´ana do tabulek (relac´ı), nad kter´ymi jsou definov´any pˇr´ıpustn´e operace. Sofware pro ˇr´ızen´ı datab´aze se obvykle naz´yv´a Relational Database Management System(RDBMS). Jazykem pro definici dat(DDL) a manipulaci s daty (DML) je jazyk SQL, dotazovac´ı struk-turovan´y jazyk. Relaˇcn´ı datab´azov´y model sdruˇzuje data do relac´ı (tabulek), kter´e obsahuj´ı n-tice (ˇr´adky). Tabulky (relace) tvoˇr´ı z´aklad relaˇcn´ı datab´aze. Tabulka je struktura z´aznam˚u s pevnˇe stanoven´ymi poloˇzkami (sloupci tabulky - atributy). Kaˇzd´y sloupec m´a definov´an jednoznaˇcn´y n´azev, typ a rozsah - dom´enu. Z´aznam tabulky je v z matematick´eho hlediska uspoˇr´adanou n-tic´ı (tuple) prvk˚u. Pokud jsou v r˚uzn´ych tabulk´ach sloupce stejn´eho typu, pak tyto sloupce mohou vytv´aˇret vazby mezi jednotliv´ymi tabulkami. Tabulky se pot´e naplˇnuj´ı vlastn´ım obsahem - konkr´etn´ımi daty.

ID category att 1 att 2 att 3

1 Category 3 value 1.1 value 1.2 value 1.3 2 Category 5 value 2.1 value 2.2 value 2.3 3 Category 3 value 3.1 value 3.2 value 3.3 4 Category 2 value 4.1 value 4.2 value 4.3 5 Category 3 value 5.1 value 5.2 value 5.3

... ... ... ... ...

n Category X value n.1 value n.2 value n.3

Tabulka 2.1: Tabulka relaˇcn´ı datab´aze.

2.2.2 Transakˇcn´ı datab´aze

Transakˇcn´ı datab´aze nejˇcastˇeji uchov´av´aj´ı prodejn´ı data pro obchodn´ı ´uˇcely. Klasick´ym pouˇzit´ım transakˇcn´ı datab´aze je datab´aze proveden´ych n´akup˚u v prodejnˇe. Jednotliv´e n´akupy se ukl´adaj´ı ve formˇe transakce, kdy kaˇzd´a transakce obsahuje poloˇzky koupen´e v jednom n´akupu.

Definice 2.2.3 Necht’ T je mnoˇzina transakc´ı (transakˇcn´ı datab´aze) a necht’ I = {I1, I2, . . . , Im}

je mnoˇzina poloˇzek. Kaˇzd´a transakce T v transakˇcn´ı datab´azi je mnoˇzinou poloˇzek takovou, ˇ

ze T ⊆ I.

2.2.4 Datov´y sklad

Datov´y sklad je subjektivnˇe orientovan´y, integrovan´y, ˇcasovˇe promˇenn´y, leˇc st´al´y soubor dat, kter´y slouˇz´ı pro podporu rozhodov´an´ı. Datov´y sklad neuchov´av´a data, kter´a nejsou vhodn´a pro podporu rozhodov´an´ı. Vzhledem k tomu, ˇze do datov´eho skladu vstupuj´ı data

(12)

z r˚uzn´ych produkˇcn´ıch datab´az´ı, je d˚uleˇzit´a integrace a sjednocen´ı dat. Toto integrov´an´ı zahrnuje sjednocen´ı stejn´ych ukazatel˚u, sjednocen´ı mˇeˇr´ıtek (napˇr´ıklad zda se budou infor-mace o v´ydaj´ıch ukl´adat v korun´ach, nebo v t´ıs´ıc´ıch korun´ach atd. . . ).

Vˇsechna data v datov´em skladu pˇredstavuj´ı ˇcasov´y sn´ımek dat z produkˇcn´ıch datab´az´ı sejmut´y v urˇcit´em ukamˇziku. Datov´y sklad je aktualizov´an offline v urˇcit´ych ˇcasov´ych intervalech (mˇes´ıˇcnˇe, ˇctvrtletnˇe, roˇcnˇe) a je rovnˇeˇz analyzov´an oddˇelenˇe od produkˇcn´ıch datab´az´ı. V´yhodou je, ˇze neˇsetrn´y z´asah do datov´eho skladu neovlivn´ı produkˇcn´ı datab´azi. Pro dolov´an´ı jsou datov´e sklady nejlepˇs´ım zdrojem - obsahuj´ı velk´e mnoˇzstv´ı dat, kter´e ˇcin´ı v´ysledky dolov´an´ı relevantnˇejˇs´ı, neˇz je tomu u “mal´ych” produkˇcn´ıch datab´az´ı.

2.3

Asociaˇ

cn´ı pravidla

Asociaˇcn´ı pravidla jsou jedny z nejˇcastˇeji dolovan´ych znalost´ı v datech a vyuˇz´ıvaj´ı se pˇredevˇs´ım pˇri tzv. anal´yze n´akupn´ıho koˇs´ıku(market basket analysis). Tento proces slouˇz´ı k anal´yze n´akupn´ıch zvyk˚u z´akazn´ık˚u hled´an´ım asociac´ı mezi poloˇzkami, kter´e z´akazn´ıci vloˇzili do sv´ych n´akupn´ıho koˇs´ıku[11]. Nabyt´e znalosti mohou pomoci usnadnit prov´adˇen´ı strategick´ych krok˚u k c´ılen´e marketingov´e kampani. Uvaˇzujme obchodn´ı ˇretˇezec, kde da-tov´y specialista zjistil, ˇze pokud si z´akazn´ık zakoup´ı ml´eko, potom si t´emˇeˇr vˇzdy zakoupil tak´e chl´eb. Pomineme-li trivi´alnost a obecnou znalost tohoto pravidla, m˚uˇze veden´ı um´ıstit prodejn´ı plochu ml´eka bl´ızko k m´ıstu prodeje chleba, ˇc´ımˇz jednak vyjde vstˇr´ıc z´akazn´ık˚um, kteˇr´ı nebudou nuceni absolvovat sloˇzit´e cesty po supermarketu hledaj´ıc poˇzadovan´e zboˇz´ı, jednak mohou pˇrimˇet ke koupi obou artikl˚u i ty, kteˇr´ı p˚uvodnˇe pˇred pˇr´ıchodem do obchodu jejich zakoupen´ı nepl´anovali.

Form´alnˇe m˚uˇzeme asociaˇcn´ı pravidla definovat takto [11]: Necht’ I = {I1, I2, . . . , Im}

je mnoˇzina prvk˚u. Necht’ D je mnoˇzina datab´azov´ych transakc´ı, kde kaˇzd´a transakce T je mnoˇzina prvk˚u takov´ych, ˇze T ⊆ I. Kaˇzd´a transakce T je sv´az´ana s identifik´atorem transakce naz´yvan´ym TID. Necht’ A je mnoˇzina prvk˚u. ˇR´ık´ame,ˇze transakce T obsahuje A tehdy a jen tehdy, kdyˇz A ⊆ T . Asociaˇcn´ı pravidlo je implikace ve tvaru A ⇒ B, kde A ⊂ I, B ⊂ I a A ∩ B = ∅ a maj´ı dvˇe z´akladn´ı charakteristiky - podporu a spolehlivost Asociaˇcn´ı pravidlo m´a podporu (support ) v D rovnu s% transakc´ı v D, kter´e obsahuj´ı X ∪ Y . Spolehlivost (confidence) pravidla ud´av´a, kolik s% transakc´ı v D, jeˇz obsahuj´ı X, obsahuje tak´e Y . Neform´alnˇe ˇreˇceno podpora ud´av´a, v kolika procentech transakc´ı T je obsaˇzena mnoˇzina prvk˚u X asociaˇcn´ıho pravidla; spolehlivost je hodnota ˇr´ıkaj´ıc´ı v kolika procentech transakc´ı kde se vyskytuje X se vyskytuje tak´e Y1

ml´eko ∧ rohl´ıky ⇒ chl´eb [supp 0.01, conf 0.8 ]

Probl´em nalezen´ı asociaˇcn´ıch pravidel v datech sest´av´a z generov´an´ı pravidel, kter´e maj´ı spolehlivost a podporu vyˇsˇs´ı neˇz zadan´e prahov´e hodnoty. Takov´a pravidla naz´yv´ame siln´a asociaˇcn´ı pravidla.

Obecnˇe mohou asociaˇcn´ı pravidla sest´avat z jak´ykoliv v´yraz˚u, o kter´y jsme schopni v koneˇcn´em ˇcase rozhodnout, zda jsou pravdiv´a ˇci nikoliv. Z´akladn´ı typ pravidel je z´ısk´av´an z transakˇcn´ıch datab´az´ı a typicky je v´ysledkem dˇr´ıve zmiˇnovan´e anal´yzy n´akupn´ıho koˇs´ıku. Transakˇcn´ı datab´aze zaznamen´avaj´ı vˇsechny proveden´e transakce (napˇr. obchodn´ı transakce), tedy informace o kaˇzd´em n´akupu. Data v transakc´ıch sest´avaj´ı z jednoduch´ych boolovsk´ych atribut˚u (kter´e mohou nab´yvat pouze hodnot 0 a 1) ve stejn´e dimenzi. Pokud st´ale uvaˇzujeme

1

(13)

anal´yzu n´akupn´ıho koˇs´ıku, tak typick´ym pˇr´ıkladem dimenze je zakoupil, kde atributy pˇr´ısluˇsn´e t´eto dimenzi tvoˇr´ı jednotliv´e poloˇzky zboˇz´ı. Pokud je hodnota atributu v transakci 1, potom z´akazn´ık pˇr´ısluˇsn´e zboˇz´ı zakoupil; pokud je 0, potom jej nezakoupil.

2.3.1 Algoritmus pro generov´an´ı siln´ych asociaˇcn´ıch pravidel

V´ysledkem dolovac´ıch algoritm˚u je mnoˇzina vˇsech frekventovan´ych mnoˇzin, coˇz je mnoˇzina jist´ych prvk˚u (poloˇzek) zdrojov´ych dat. Frekventovan´a mnoˇzina, kter´a obsahuje k prvk˚u, se naz´yv´a k -mnoˇzina.

Jakmile jsou nalezeny vˇsechny frekventovan´e mnoˇziny z transakc´ı v datab´azi D, n´asleduje generov´an´ı siln´ych asociaˇcn´ıch pravidel (kde slovo siln´y vyjadˇruje, ˇze pravidlo splˇnuje poˇzadavek na minim´aln´ı podporu support i minim´aln´ı spolehlivost confidence). To se prov´ad´ı n´asleduj´ıc´ım v´ypoˇctem spolehlivosti:

conf idence(A ⇒ B) = podpora(A ∪ B) podpora(A) ,

kde podpora(A ∪ B) je ˇc´ıslo, vyjadˇruj´ıc´ı poˇcet transakc´ı obsahuj´ıc´ıch mnoˇzinu poloˇzek A ∪ B a podpora(A) poˇcet transakc´ı obsahuj´ıc´ıch mnoˇzinu poloˇzek A.

• Pro kaˇzdou frekventovanou mnoˇzinu L vygeneruj vˇsechny nepr´azdn´e podmnoˇziny. • Pro kaˇzdou nepr´azdnou podmnoˇzinu S, S ∈ L, vytvoˇr pravidlo S ⇒ (L − S) pr´avˇe

tehdy, kdyˇz podpora(L)podpora(S) ≥ min supp, kde min supp je pr´ah minim´aln´ı podpory.

2.3.2 Algoritmy pro generov´an´ı asociaˇcn´ıch pravidel

V´yvoj algoritm˚u pro generov´an´ı asociaˇcn´ıch pravidel pˇr´ımo souvis´ı s jiˇz zmiˇnovanou anal´yzou n´akupn´ıho koˇs´ıku. Prvn´ım pouˇzit´ym algoritmem v˚ubec byl algoritmus Apriori a jeho up-raven´e varianty, kter´e v´ıce ˇci m´enˇe zvyˇsovaly ´uˇcinnost algoritmu a sniˇzovaly jeho obrovsk´e pamˇet’ov´e n´aroky.

Algoritmus FP-Growth[12] pˇrinesl oproti Apriori neb´yvale rychl´e generov´an´ı asociaˇcn´ıch pravidel. Pracuje na principu uloˇzen´ı p˚uvodn´ıch dat do kompaktn´ı stromov´e struktury FP-Tree, ˇc´ımˇz odpad´a zdlouhav´y proces generov´an´ı a testov´an´ı frekventovan´ych mnoˇzin. Apriori

Z´akladn´ım algoritmem pro z´ısk´av´an´ı asociaˇcn´ıch pravidel je algoritmus Apriori. Jedn´a se o jednoduch´y algoritmus, kter´y z frekventovan´ych n-mnoˇzin generuje frekventovan´e (n + 1)-mnoˇziny, k ˇcemuˇz vyuˇz´ıv´a metodu prohled´av´an´ı do ˇs´ıˇrky(breadth-first search).

V kaˇzd´em kroku algoritmu se vygeneruj´ı mnoˇziny prvk˚u a testuje se, zda podpora tˇechto prvk˚u je vˇetˇs´ı neˇz minim´aln´ı podpora. Mnoˇziny, kter´e t´ımto testem ´uspˇeˇsnˇe projdou, se pak st´avaj´ı zdrojem pro generov´an´ı mnoˇzin obsahuj´ıc´ıch o jeden prvek v´ıce, neˇz p˚uvodn´ı mnoˇzina.

2.4

Klasifikace

Klasifikace, tedy pˇriˇrazov´an´ı objekt˚u re´aln´eho svˇeta do urˇcit´e kategorie, je pˇrirozen´y proces, pomoc´ı kter´eho si lidsk´y mozek ujasˇnuje typick´e rysy o mnoˇzinˇe sobˇe podobn´ych objekt˚u,

(14)

pˇriˇcemˇz tato m´ıra podobnosti je ˇcistˇe subjektivn´ı a z´aleˇz´ı na mnoha vlivech. Aniˇz bychom si to uvˇedomovali, klasifikace n´am usnadˇnuje rychl´e ohodnocen´ı poˇcitk˚u bez nutnosti jejich kompletn´ı anal´yzy. Mal´emu d´ıtˇeti nedˇel´a probl´em dotknout se holou rukou vaˇr´ıc´ıho se hrnce, nebot’ nedok´aˇze kvalitnˇe vyhodnotit, jak´y bude m´ıt kontakt lidsk´e tk´anˇe a rozˇzhaven´eho objektu d˚usledky. Aˇz po tom, co se poprv´e pop´al´ı, v jeho mozku se uloˇz´ı pˇr´ısluˇsn´a informace, kterou bychom mohli vyj´adˇrit napˇr´ıklad takto:

Pokud se z objektu na plotnˇe kouˇr´ı, potom je nebezpeˇcn´y

V pr˚ubˇehu ˇzivota n´aslednˇe doch´az´ı k postupn´emu “upˇresˇnov´an´ı” vytvoˇren´ych pravidel na z´akladˇe dalˇs´ıho proˇzit´ı identick´e (nebo podobn´e) situace. Dalˇs´ı a dalˇs´ı kontakty s hrncem na plotnˇe vedou ke kvalitnˇejˇs´ımu vyhodnocen´ı n´asleduj´ıc´ıch situac´ı a postupem ˇcasu se mohlo pravidlo transformovat do podoby:

Pokud se objekt na plotnˇe podob´a hrnci, vaˇr´ı se, kouˇr´ı se z nˇej a pokud nem´a dˇrevˇen´e drˇzadlo, je objekt nebezpeˇcn´y.

Jin´ym pˇr´ıkladem klasifikace objekt˚u m˚uˇze b´yt urˇcen´ı bonity klienta bankovn´ıch in-stituc´ı. Pˇredstavme si sama sebe jako ˇreditele banky, kter´y poskytuje klient˚um finanˇcn´ı ´

uvˇery. Probl´em je v tom, ˇze urˇcit´a skupina klient˚u ´uvˇer probl´emy se spl´acen´ım spl´atek a vaˇs´ım ´ukolem je rozhodnout, jak rozliˇsit ty klienty, kteˇr´ı jsou bezprobl´emov´ı, a kter´ym nen´ı rizikov´e pen´ıze p˚ujˇcit, a ty, kteˇr´ı naopak spl´acet nebudou.

Pokud m´ame k dispozici z´aznamy o napˇr. 1000000 posledn´ıch ˇzadatel˚u o ´uvˇer, m˚uˇzeme anal´yzou osobn´ıch informac´ı (napˇr. v´yˇse platu, vˇek) zaˇradit kaˇzd´eho do jedn´e ze tˇr´ıd {schopn´y spl´acet, neschopn´y spl´acet}. S vyuˇzit´ım nabit´ych znalost´ı o minul´ych z´akazn´ıc´ıch pak m˚uˇzeme novˇe pˇr´ıchoz´ı klienty ohodnotit tak, ˇze napˇr. porovn´ame jejich osobn´ı infor-mace s jiˇz analyzovan´ymi informacemi. Informace o tam obrovsk´em mnoˇzstv´ı klient˚u jsou vˇsak velmi tˇeˇzce zpracovateln´e lidsk´ym mozkem, a tak je zcela logick´e, ˇze se v pr˚ubˇehu let zaˇcaly vytv´aˇret techniky a n´astroje pro automatizovanou klasifikaci.

V t´eto kapitola bude vysvˇetlen a diskutov´an v´yznam klasifikace z hlediska pomoci pˇri rozhodov´an´ı. Zvl´aˇstn´ı samostatn´a ˇc´ast bude vˇenovan´a vyuˇzit´ı asociaˇcn´ıch pravidel pˇri klasi-fikaci.

U klasifikaˇcn´ıch metod 3 sledujeme nˇekolik d˚uleˇzit´ych vlastnost´ı, kter´e n´am pom´ahaj´ı je mezi sebou porovn´avat a urˇcovat oblasti vhodn´eho pouˇzit´ı(viz.[11]):

• Stupeˇn pˇresnosti klasifik´atoru ud´av´a jak pˇresnˇe dok´aˇze klasifik´ator ohodnotit novˇe pˇr´ıchoz´ı vzorky a je urˇcena procentu´aln´ı ´uspˇeˇsnosti klasifikace.

• Rychlost klasifik´atoru vyjadˇruje v´ypoˇcetn´ı ˇcas spojen´y s uˇcen´ım a testov´an´ım klasi-fik´atoru.

• Robustnost je schopnost klasifik´atoru vypoˇr´adat se i s poˇskozen´ymi vstupn´ımi daty (zaˇsumˇen´a data, chybˇej´ıc´ı hodnoty).

• Stabilita vypov´ıd´a o tom, jak je klasifik´ator schopn´y spr´avn´e funkˇcnosti i na velk´em mnoˇzstv´ı dat.

• Interpretovatelnost ud´av´a stupeˇn srozumitelnosti klasifik´atoru.

3

(15)

V´ybˇer klasifikaˇcn´ı metody z´avis´ı pˇredevˇs´ım na poˇzadovan´ych vlastnostech. Pokud potˇrebujeme rychl´y klasifik´ator pro klasifikaci vzork˚u v re´aln´em ˇcase, bude n´am z´aleˇzet na jej´ı rychlosti a oˇzel´ıme napˇr´ıklad interpretovatelnost.

2.4.1 Klasifikace jako metoda dolov´an´ı znalost´ı

Klasifikace je proces zaˇrazen´ı objektu do urˇcit´e tˇr´ıdy a sest´av´a ze dvou f´az´ı[11]: 1. F´aze tr´enov´an´ı klasifik´atoru(Training phase)

2. F´aze testov´an´ı(Testing phase) Tr´enovac´ı f´aze

V tr´enovac´ı f´azi je z dat vytvoˇren´a tzv. tr´enovac´ı mnoˇzina - vyberou se vzorky dat, kter´e budou reprezentovat klasifik´ator. U tˇechto vybran´ych dat mus´ıme pˇresnˇe vˇedˇet, do kter´e tˇr´ıdy jsou zaˇrazena (tˇr´ıd mus´ı b´yt pˇredem zn´am´y koneˇcn´y poˇcet) 1 Tr´enovac´ı mnoˇzinu si m˚uˇzeme pˇredstavit jako dvojici (X, Class), kde vektor X = (x1, x2, x3, . . . , xn) je vektor

hodnot n atribut˚u nˇejak´eho objektu a Class je oznaˇcen´ı tˇr´ıdy, do kter´e je objekt pˇriˇrazen. ´

Ukolem klasifik´atoru je pak nauˇcit se funkci y = f (X), kter´a pˇredpov´ıd´a tˇr´ıdu na z´akladˇe znalosti vektoru X. Mapovac´ı funkce m˚uˇze b´yt reprezentovan´a r˚uzn´ymi zp˚usoby - napˇr. formou klasifikaˇcn´ıch pravidel, rozhodovac´ıch strom˚u, r˚uzn´ych matematick´ych vzorc˚u apod. V´ystupem prvn´ı f´aze klasifikace je tedy jak´asi ˇcern´a skˇr´ıˇnka, kter´e kdyˇz na vstup pˇriloˇz´ıme vektor X, tak na v´ystupu vr´at´ı tˇr´ıdu Class, do kter´e (s urˇcitou pravdˇepodobnost´ı) objekt reprezentovan´y X patˇr´ı.

Testovac´ı f´aze

Ve druh´e f´azi klasifikace, kterou naz´yv´ame f´az´ı tr´enov´an´ı doch´az´ı k ovˇeˇren´ı vlastnost´ı klasi-fik´atoru, pˇredevˇs´ım urˇcen´ı MR2 a urˇcen´ı, do jak´e m´ıry se klasifik´ator hod´ı pro ˇreˇsen´ı toho konkr´etn´ıho probl´emu.

Pro tento krok mus´ıme opˇet vybrat vzorky dat se zn´amou tˇr´ıdou, do kter´e objekt patˇr´ı -testovac´ı mnoˇzinu. Tyto vzorky by se mˇeli liˇsit od vzork˚u pouˇzit´ych v prvn´ı f´azi klasifikace. Zat´ımco ve f´aze tr´enov´an´ı se klasifik´ator jist´ym zp˚usobem nauˇcil “pˇredpov´ıdat”, v t´eto f´azi se hodnot´ı m´ıra kvality jeho pˇredpovˇed´ı a na z´akladˇe zn´amosti tˇr´ıd, do kter´ych vzorek patˇr´ı, se urˇcuje jeho MR.

2.4.2 Hodnocen´ı klasifikaˇcn´ıch metod

Pro ohodnocen´ı klasifik´ator˚u z hlediska kvality pˇredpovˇedi existuje cel´a ˇreda metrik. Ty se hod´ı tak´e v pˇr´ıpadˇe, ˇze potˇrebujeme porovnat nˇekolik r˚uzn´ych klasifikaˇcn´ıch metod. Asi nejˇcastˇeji uˇz´ıvanou metrikou je pˇresnost, jenˇz ud´av´a pomˇer spr´avnˇe klasifikovan´ych dokument˚u ku vˇsem dokument˚um v testovac´ı mnoˇzinˇe. Dal´e se ˇcasto mluv´ı o chybovosti klasifik´atoru, kter´a je definovan´a jako 1− pˇresnost.

• p+ (true positive) = poˇcet dokument˚u klasifikovan´ych do spr´avn´e tˇr´ıdy

1

Tr´enovac´ı f´aze je pˇr´ıkladem uˇcen´ı s uˇcitelem, kdy zn´ame tˇr´ıdy, do kter´ych se budou tr´enovac´ı vzorky dat pˇriˇrazovat.

2MR = Misclassification Rate, neboli pravdˇepodobnost ˇspatn´e klasifikace. ˇC´ım niˇs´ı hodnoty nab´yv´a,

(16)

C1 C2

C1 true positive false negative

C2 false positive true negative

• n− (true negative) = poˇcet dokument˚u spr´avnˇe neklasifikovan´ych do tˇr´ıdy

• p− (false positive) = poˇcet dokument˚u klasifikovan´ych do chybn´e tˇr´ıdy • n+ (false negative) = poˇcet dokument˚u chybnˇe neklasifikovan´ych do tˇr´ıdy

Mus´ı platit, ˇze p++ p−+ n++ n−= N , kde N je rovno celkov´emu poˇctu dokument˚u v testovac´ı mnoˇzinˇe.

Pˇresnost(precision )

Ud´av´a poˇcet spr´avnˇe spr´avnˇe klasifikovan´ych dokument˚u v pomˇeru k poˇctu vˇsech doku-ment˚u, kter´e byly klasifikovan´e do jak´ekoliv tˇr´ıdy.

precision = p

+

p++ n+

Z jin´eho pohledu lze na pˇresnot pohl´ıˇzet jako na pravdˇepodobnost v´ybˇeru spr´avnˇe klasi-fikovan´eho dokument˚u z mnoˇziny vˇsech klasifikovan´ych.

´

Uplnost(recall )

Je metrikou, kter´a vyjadˇruje pravdˇepodobnost, s jakou mezi je dokument spr´avnˇe klasi-fikov´an do pˇr´ısluˇsn´e kategorie.

recall = p

+

p++ p

Chybovost(error rate)

Je ˇcasto vyuˇz´ıvan´ym mˇeˇr´ıtkem pro hodnocen´ı klasifikaˇcn´ıch metod. Ud´av´a pomˇer vˇsech ˇspatnˇe klasifikovan´ych dokument˚u ku vˇsem dokument˚um v testovac´ı mnoˇzinˇe dokument˚u. Kromˇe n´azvu Error-rate se v literatuˇre ˇcasto m˚uˇzeme setkat s pojmem Misclassification Rate - MR; jejich v´yznam je v kontextu klasifikace totoˇzn´y.

error rate = n

++ p

p++ p+ n+ n+

Obecnˇe m˚uˇzeme MR ch´apat jako pravdˇepodobnost, s jakou klasifik´ator dan´y dokument D zaˇr´ad´ı do ˇspatn´e tˇr´ıdy.

Kromˇe tˇechto existuje cel´a ˇrada dalˇs´ıch metrik, kter´e dohromady tvoˇr´ı mocn´y n´astroj pro popis vlastnost´ı klasifikaˇcn´ıch metod. Z dalˇs´ıch d˚uleˇzit´ych metrik se ˇcasto pouˇz´ıv´a tak´e napˇr. fallout, f-measure, sensitivity, specificity a jin´e.

(17)

2.5

Tradiˇ

cn´ı klasifikaˇ

cn´ı metody

2.5.1 Rozhodovac´ı stromy

Rozhodovac´ı strom je stromov´a struktura, v niˇz uzly nesou hodnotu urˇcit´eho atributu z mnoˇziny atribut˚u, hrany mezi uzly definuj´ı podm´ınku vztahuj´ıc´ı se k atributu v´yˇse poloˇzen´emu uzlu a listy ud´av´aj´ı tˇr´ıdu, do niˇz je vstupn´ı vzorek klasifikov´an. Rozhodovac´ı strom je grafick´ym vyj´adˇren´ım rozhodovac´ıch pravidel, v r´amci klasifikace je moˇzn´e na na rozhodovac´ı strom a rozhodovac´ı pravidla nahl´ıˇzet jako na ekvivalentn´ı modely pro klasi-fikaci.

U rozhodovac´ıch strom˚u je d˚uleˇzit´e spr´avn´e sestrojen´ı samotn´eho stromu, tedy pos-tupn´em urˇcen´ı “nejv´yznamnˇejˇs´ıch” atribut˚u s nejvyˇsˇs´ı rozhodovac´ı schopnost´ı a rozdˇelen´ı hodnot atributu.

Neuronov´e s´ıtˇe

Obl´ıben´ym klasifikaˇcn´ım modelem jsou umˇel´e neuronov´e s´ıtˇe, kter´e simuluj´ı chov´an´ı s´ıt´ı neuron˚u lidsk´eho mozku. Z´akladn´ı jednotkou neuronov´e s´ıtˇe je neuron se vstupy a v´ystupy.

Pro kaˇzd´y vstup xi neuronu i je definov´ana v´aha wi a pro cel´y neuron bias Θ;

transfor-mac´ı vypoˇc´ıtan´e sumy

n

X

i=1

wixi+ Θ

jistou aktivaˇcn´ı funkc´ı z´ısk´ame v´ystupn´ı hodnotu neuronu, kter´a m˚uˇze b´yt v pˇr´ıpadˇe s´ıt´ı neuron˚u ˇs´ıˇrena na vstupy jin´ych neuron˚u, pˇr´ıpadnˇe m˚uˇze tvoˇrit v´ystupn´ı hodnotu klasifikace vzorku.

Uˇcen´ı pro klasifikaci neuronov´ymi s´ıtˇemi spoˇc´ıv´a ve spr´avn´em nastaven´ı vah wi vˇsech

neuron˚u ni a biasu Θ u vˇsech neuron˚u s´ıtˇe tak, aby v´ystupy koncov´ych neuron˚u spr´avnˇe

ohodnotily vzorky do pˇr´ısluˇsn´e tˇr´ıdy. Na poˇc´atku se hodnoty nastav´ı n´ahodnˇe a postupn´ym testov´an´ım se upravuj´ı do t´e doby, dokud nedos´ahneme poˇzadovan´e pˇresnosti.

Nejˇcastˇeji pouˇz´ıvanou neuronovou s´ıt´ı je s´ıt Backpropagation tvoˇren´a neurony naz´yvan´ymi perceptron. Neurony v s´ıti Backpropagation jsou seskupeny do vrstev; rozliˇsujeme vstupn´ı vrstvu, skryt´e vrsty a vrstvu v´ystupn´ı. Vstupn´ı vrstva je tvoˇrena neurony pˇrij´ımaj´ıc´ı vstupn´ı hodnoty. Ve skryt´ych vsrtv´ach doch´az´ı k postupn´emu zpracov´an´ı hodnot ze vstupn´ı vrstvy a k ˇs´ıˇren´ı hodnot do vrstvy v´ystupn´ı, jej´ıˇz neurony na v´ystupu urˇcuj´ı v´yslednou hodnotu vstupn´ıho vzorku. Uˇcen´ı s´ıtˇe Backpropagation je zaloˇzen´a na zpˇetn´em ˇs´ıˇren´ı chyby, kdy se hodnota v´ystupn´ı vrstvy porovn´av´a s oˇcek´avanou hodnotou a podle toho jsou upraveny v´ahy neuron˚u od posledn´ı vrstvy aˇz po vrstvu vstupn´ı.

Metoda k-sousedstv´ı (k-nearest neighbor)

Velice jednoduchou metodou pro klasifikaci textu je metoda k-sousedstv´ı pracuj´ıc´ı na prin-cipu, ˇze dva sobˇe podobn´e dokumenty budou pravdˇepodobnˇe zaˇrazen´e do stejn´e tˇr´ıdy. Podobnost dokument˚u se urˇcuje na z´akladˇe Eukleidovsk´e vzd´alenosti vektor˚u popisuj´ıc´ıch dokument. Z tr´enovac´ıch dat je vybr´ano pr´avˇe k vzor˚u, jejichˇz vzd´alenost je nejmenˇs´ı k pr´avˇe klasifikovan´emu prvku. Klasifikovan´y prvek je potom zaˇrazen do t´e tˇr´ıdy, kter´a je nejˇcetnˇejˇs´ı u tˇechto k vybran´ych prvk˚u.

(18)

Kapitola 3

Klasifikace dokument˚

u zaloˇ

zen´

a na

asociaˇ

cn´ıch pravidlech

3.1

Klasifikace textov´

ych dokument˚

u

Klasifikace textov´ych dat (TC - Text Classification) je ´uloha automatick´eho tˇr´ıdˇen´ı doku-ment˚u do dan´ych tˇr´ıd (kategori´ı). Tato ´uloha spad´a do oblasti z´ısk´av´an´ı informac´ı(Information Retrieval) a strojov´eho uˇcen´ı(Machine Learning).

Typicky prvn´ım krokem pˇri klasifikaci textov´ych dat je transformace dokumentu, kter´y je ve vˇetˇsinˇe pˇr´ıpad˚u reprezentov´an jako ˇretˇezec znak˚u, do podoby vhodn´e pro algoritmus klasifikaˇcn´ı metody. V´yzkumy posledn´ıch let pouk´azaly pˇredevˇs´ım na d˚uleˇzitost stemmingu slov - urˇcen´ı koˇrene slov. To vede k reprezentaci textu jako dvojice atribut-hodnota, kde u kaˇzd´eho slova (slovn´ıho koˇrene) evidujeme poˇcet v´yskyt˚u v dokumentu. Jedn´ım z probl´em˚u pˇri stemmingu je velk´y poˇcet irelevantn´ıch slov, proto se vˇetˇsinou pouˇz´ıvaj´ı r˚uzn´e techniky vedouc´ı k redukci poˇctu slov.

Obecnˇe se pˇri klasifikaci textu postupuje obdobnˇe jako u klasifikace relaˇcn´ıch dat - z tr´enovac´ı mnoˇziny dat ze vytvoˇr´ı klasifikaˇcn´ı schema, podle kter´eho n´aslednˇe klasifikujeme dalˇs´ı dokumenty. Z´asadn´ı rozd´ıl je ve skuteˇcnosti, ˇze relaˇcn´ı data jsou plnˇe strukturovan´a, napˇr. v n-tici { sluneˇcno, teplo, vlhko, bezvˇetˇr´ı, proch´azka } hodnota sluneˇcno koresponduje s atributem stavMraˇcen, hodnota horko s atributem teplota atd . . . . C´ılem asociaˇcn´ı anal´yzy je rozhodnout, jak´a mnoˇzina dvojic atribut-hodnota atributu m´a nejvˇetˇs´ı vliv na to, zda se p˚ujde jist´a osoba proj´ıt na proch´azku. Oproti tomu datab´aze dokument˚u nejsou takto strukturovan´e a klasick´e relaˇcn´ı klasifikaˇcn´ı metody, napˇr. klasifikaˇcn´ı stromy, zde nejsou efektivn´ı.

3.1.1 Praktick´e vyuˇzit´ı

Filtrov´an´ı textu

Filtrov´an´ı textu je proces ohodnocen´ı, ˇci klasifikace pˇr´ıchoz´ıch dokument˚u podle jejich ob-sahu a rozhodnut´ı, zda dokument je pˇr´ıpustn´y, ˇci nikoliv. Typick´ymy pˇr´ıpady filtrovac´ıho syst´emu jsou filtr elektronick´e poˇsty, filtr nepˇr´ıpustn´eho obsahu, nebo filtr pˇr´ıspˇevk˚u do internetov´ych diskuz´ı. Filtrovac´ı syst´em m˚uˇze blokovat pˇrijet´ı dokumentu, o kter´y pˇr´ıjemce nem´a z´ajem. Filtrov´an´ı je pˇr´ıpad bin´arn´ıho TC, kdy se prov´ad´ı klasifikace dokument˚u do dvou disjunktn´ıch kategori´ı - relevantn´ı a irelevantn´ı.

(19)

Organizace dokument˚u

Potˇreba organizovat dokumenty do kategori´ı je zde od poˇc´atku existence textov´ych doku-ment˚u v˚ubec. Kr´atk´y popis dokumentu (napˇr. formou n´azvu souboru) je v´yhodn´y pˇri prohl´ıˇzen´ı mal´eho poˇctu dokument˚u, pˇri vˇetˇs´ım mnoˇzstv´ı je vyhled´an´ı konkr´etn´ıho doku-mentu obt´ıˇzn´e. Proto dokumenty organizujeme hierarchicky do kategori´ı, podkategori´ı atd. Napˇr. v redakci novin m˚uˇze pˇrij´ıt poˇzadavek na organizaci napsan´ych ˇcl´ank˚u pro bu-douc´ı jednoduˇsˇs´ı vyhled´av´an´ı. Moˇzn´ymi kategoriemi zde mohou b´yt “Zpr´avy z domova”, “Zahraniˇcn´ı zpr´avy”, “Sportovn´ı zpr´avy” aj.

3.2

Klasifikace webov´

ych str´

anek

World Wide Web pˇredstavuje celosvˇetov´y obrovsk´y distribuovan´y zdroj informaˇcn´ı cen-trum novinov´ych zpr´av, reklam, obchodn´ıch informac´ı, uˇcebn´ıch materi´al˚u, a mnoha dalˇs´ıch informaˇcn´ıch sluˇzeb. Mimo jin´e Web poskytuje tak´e bohatou dynamickou kolekci hyper-linkov´ych odkaz˚u, informac´ı o pˇr´ıstupech na str´anku, z´atˇeˇz´ı server˚u, a dalˇs´ıch informac´ı vhodn´ych pro dolov´an´ı znalost´ı.

Obr´azek 3.1: Oddˇelen´ı textu a struktury webov´eho dokumentu

Sloˇzitost webov´ych dokument˚u(str´anek) je daleko vˇetˇs´ı neˇz u jak´ekoliv kolekce tradiˇcn´ıch textov´ych dokument˚u. Webov´e str´anky postr´adaj´ı sjednocenou strukturu dokumentu, jako je napˇr. n´azev autora, obsah atd. . . a vyhled´av´an´ı v nich je proto obt´ıˇzn´e. ˇR´ık´a se, ˇze 99% informac´ı na Webu je pro 99% n´avˇstˇevn´ık˚u nepotˇrebn´ych. Toto pravidlo zcela odpov´ıd´a skuteˇcnosti, kdy je probl´em v z´aval˚u webov´ych dokument˚u probl´em naj´ıt ty, kter´e odpov´ıdaj´ı naˇsim z´ajm˚um v dan´e oblasti. Klasifikace webov´ych str´anek je ale tak´e v lecˇcems podobn´a klasifikaci obyˇcejn´ych textov´ych dokument˚u. Kromˇe samotn´eho textu je dalˇs´ım moˇzn´ym zdrojem znalost´ı rozm´ıstˇen´ı prvk˚u dokumentu, tj. rozloˇzen´ı a vlastnosti jednotliv´ych ˇc´ast´ı jako jsou navigaˇcn´ı menu, reklamn´ı banner, nebo tˇelo dokumentu. Je zˇrejm´e, ˇze napˇr. we-bov´a str´anka zpravodajsk´eho den´ıku bude m´ıt jin´e rozloˇzen´ı, neˇz osobn´ı str´anka, ˇci blog. V oblasti dolov´an´ı znalost´ı segmentac´ı prob´ıhaj´ı v´yzkumy intenzivnˇe aˇz v posledn´ı dobˇe, vˇenuje se j´ı napˇr. [20].

Ide´aln´ı klasifik´ator pˇri urˇcov´an´ı tˇr´ıdy, do kter´e dokument patˇr´ı, prov´ad´ı klasifikaci dvakr´at - jednak se provede klasifikace podle textov´eho obsahu str´anky, jednak se dokument klasifikuje podle rozloˇzen´ı ˇc´ast´ı dokument˚u na str´ance. ´Ukolem klasifikaˇcn´ıho syst´emu je pak v´ysledky obou krok˚u sjednotit a urˇcit kategorii podle obou kriteri´ı.

(20)

3.2.1 Klasifikace s vyuˇzit´ım asociaˇcn´ıch pravidel

Metoda zaloˇzen´a na asociaˇcn´ıch pravidlech klasifikuje dokumenty na z´akladˇe asociace ˇcasto se vyskytuj´ıc´ıho vzorku textu (slovo, slovn´ı spojen´ı) s tˇr´ıdou, kter´a je t´ımto vzorkem reprezentovan´a. Probl´em je, ˇze v textu se vyskytuje mnoho ˇcasto se opakuj´ıc´ıch vzork˚u (spojky, pˇredloˇzky), kter´e o zaˇrazen´ı do tˇr´ıdy nemaj´ı ˇz´adn´y vliv; ´ukolem asociaˇcn´ı klasi-fik´atoru je tyto vzorky vylouˇcit a naj´ıt pouze vhodn´e vzorky textu.

V pˇr´ıpadˇe dat relaˇcn´ıch se asociaˇcn´ı klasifik´ator od textov´eho odliˇsuje zejm´ena ve f´azi dolov´an´ı asociaˇcn´ıch pravidel, kdy m´ısto vzork˚u textu tvoˇr´ı frekventovan´e mnoˇziny dvojice atribut-hodnota.

Asociaˇcn´ı klasifik´atory pracuj´ı obecnˇe v nˇekolika kroc´ıch. Nejprve mus´ı data pˇripravit pro metodu dolov´an´ı asociaˇcn´ıch pravidel. Nalezen´a pravidla se n´aslednˇe mohou seˇradit podle kvality a pr´avˇe na z´akladˇe tˇechto pravidel klasifik´ator urˇc´ı, do kter´e tˇr´ıdy dokument patˇr´ı. Pro klasifikaci asociaˇcn´ımi pravidly existuje cel´a ˇrada metod.

Jednoduch´a metoda CBA(Classification-Based Association)[14] prov´ad´ı v´ıcen´asobn´e pr˚ u-chody daty a hled´a asociaˇcn´ı pravidla, pˇritom pracuje na principu podobn´em algoritmu Apriori. Nov´y dokument je zaˇrazen do t´e tˇr´ıdy, kter´a je pokryt´a prvn´ım pravidlem v seˇrazen´e mnoˇzinˇe z´ıskan´ych asociaˇcn´ıch pravidel.

Metoda CMAR(Classification based od Multiple Association Rules)[13]je v mnoh´em podobn´a pˇredchoz´ı metodˇe, liˇs´ı se vˇsak pˇr´ıstupem, jak´ym se hledaj´ı asociaˇcn´ı pravidla, a jak´ym se vytv´aˇr´ı samotn´y klasifik´ator. M´ısto algoritmu Apriori je pro nalezen´ı asociaˇcn´ıch pravidel pouˇzit´a varianta efektivn´ıho algoritmu FP-growth(Frequent Pattern-growth)[12], kter´a v datov´e struktuˇre naz´yvan´e FP-strom(FP-tree) uchov´av´a informace o vˇsech frekven-tovan´ych mnoˇzin´ach datov´eho souboru. Pro uchov´an´ı asociaˇcn´ıch pravidel pouˇz´ıv´a tak´e stromovou strukturu, tzv. CR-strom(Classification Rule-tree). Metoda CMAR dosahuje pˇri praktick´em pouˇzit´ı vyˇsˇs´ı efektivity klasifikace a vyˇsˇs´ı pr˚umˇern´e pˇresnosti klasifikace neˇz algoritmus CBA[13]. Apriori CBA >> database << CMAR >> fp tree << ARC - BC >> database(impl) << FP Growth Apriori like (FP Growth) ... Single Category Multiple Category Complexity

Obr´azek 3.2: Oddˇelen´ı textu a struktury webov´eho dokumentu

(21)

jedn´e tˇr´ıdy. V praxi se s dokumenty n´aleˇz´ıc´ımi v´yhradnˇe do jedn´e kategorie setk´ame velmi zˇr´ıdka a v´ysledky klasifikace takov´eho dokumentu pak mohou b´yt znaˇcnˇe zkreslen´e. Tento z´asadn´ı probl´em dal za vznik dvˇema metod´am urˇcen´ym v´yhradnˇe pro klasifikaci textov´ych dat - metod´am AC(Association Rule-based Classifier with All Categories) a ARC-BC(Association Rule-base Classifier By Category). Obˇe metody se liˇs´ı pouze ve zp˚usobu hled´an´ı asociaˇcn´ıch pravidel. Zat´ımco ARC-AC hled´a pravidla v cel´e tr´enovac´ı mnoˇzinˇe dokument˚u, ARC-BC nejprve rozdˇel´ı dokumenty do skupin podle kategorie, do kter´e patˇr´ı, a extrakci asociaˇcn´ıch pravidel pak prov´ad´ı zvl´aˇst’ pro kaˇzdou skupinu. Podle [24] je ARC-BC v´yhodn´y i v pˇr´ıpadˇe kategori´ı, do kter´ych spad´a pouze mal´e procento dokument˚u.

3.3

Metoda ARC-BC

Pro klasifikaci dokument˚u vzniklo velk´e mnoˇzstv´ı r˚uzn´ych metod. Metoda ARC-BC[1] se snaˇz´ı zkombinovat jejich pˇrednosti (rychlost, interpretovatelnost) do klasifikaˇcn´ı metody vyuˇz´ıvaj´ıc´ı asociaˇcn´ı pravidla. Klasifik´ator byl navrˇzen s ohledem na dva hlavn´ı probl´emy: (1) nalezen´ı kvalitn´ıch reprezentativn´ıch asociaˇcn´ı pravidel v textov´ych datech generov´an´ım a proˇrez´av´an´ım; a (2) pouˇzit´ı nalezen´ych pravidel k vybudov´an´ı textov´eho klasifik´atoru.

3.3.1 Popis metody

ARC-BC klasifik´ator (Association Rule-based Classifier By Category) je klasick´ym aso-ciaˇcn´ım klasifik´atorem. Oznaˇcen´ı ARC-BC vyjadˇruje hned nˇekolik d˚uleˇzit´ych informac´ı o klasifik´atoru. ARC ˇr´ık´a, ˇze klasifik´ator pracuje na principu generov´an´ı asociaˇcn´ıch pravidel, BC potom upˇresˇnuje, jak´ym zp˚usobem se generuj´ı asociaˇcn´ı pravidla v jednotliv´ych kate-gori´ıch. V pˇr´ıpade ARC-BC se postupuje tak, ˇze pokud dokument n´aleˇz´ı do v´ıce jak jedn´e tˇr´ıdy, potom se vyskytuje ve vstupn´ıch datech tolikr´at, do kolika tˇr´ıd patˇr´ı a dolov´an´ı pravidel se prov´ad´ı samostatnˇe pro kaˇzdou mnoˇzinu dokument˚u Di, ve kter´e jsou pouze

dokumenty n´aleˇz´ıc´ı do tˇr´ıdy ci. Naproti tomu metoda ARC-AC (Association Rule-based

Classifier with All Categories)[24] doluje asociaˇcn´ı pravidla z kompletn´ı mnoˇziny doku-ment˚u. Probl´emem metody ARC-AC je, ˇze obt´ıˇznˇe zpracov´av´a kategorie, do kter´ych spad´a jen mal´y poˇcet dokument˚u, viz.[1].

Na vstup klasifik´atoru pˇredloˇz´ıme kolekci dokument˚u (obecnˇe jak´ychkoliv dat), po proveden´ı ˇrady krok˚u je nalezen klasifikaˇcn´ı model. Prvn´ım krokem v tomto netrivi´aln´ım procesu je pˇredzpracov´an´ı vstupn´ıch dat1. Dalˇs´ım krokem je vybudov´an´ı asociaˇcn´ıho klasi-fik´atoru hled´an´ım asociaˇcn´ıch pravidel algoritmem Apriori.2, Jakmile je vygenerovan´a mnoˇzina asociaˇcn´ıch pravidel, d˚uleˇzit´ym krokem je pouˇzit´ı proˇrez´avac´ıch technik vedouc´ıch k redukci poˇctu pravidel. F´aze redukce pravidel je velice d˚uleˇzit´a, nebot’ velk´e mnoˇzstv´ı pravidel m´a z´asadn´ı vliv na rychlost klasifik´atoru. Po proˇrez´an´ı pravidel je vytvoˇren asociaˇcn´ı klasi-fik´ator - jeho znalostn´ı b´azi tvoˇr´ı prozeˇran´a asociaˇcn´ı pravidla. V posledn´ım kroku se vytvoˇren´emu klasifik´atoru pˇredkl´ad´a dokument ke klasifikaci a klasifik´ator se snaˇz´ı pˇredpovˇedˇet do kter´e tˇr´ıdy (resp. tˇr´ıd) dokument n´aleˇz´ı. Princip ˇcinnosti klasifik´atoru zaloˇzen´eho na gen-erov´an´ı asociaˇcn´ıch pravidel je zobrazen na Obr´azku 7.3

1Data mohou b´yt v surov´e podobˇe zaˇsumˇen´a, ne´upln´a, ˇci duplicitn´ı, pro spr´avnou funkˇcnost klasifik´atoru

je potˇreba tyto neduhy odstranit; viz napˇr. [11]

2Algoritmus Apriori je jednoduch´y algoritmus pro hled´an´ı asociaˇcn´ıch pravidel, jeho nev´yhodou je (v

pˇr´ıpadˇe velk´eho mnoˇzstv´ı dat) velk´a ˇcasov´a n´aroˇcnost a nutnost m´ıt st´ale aktivn´ı pˇr´ıstup ke zdroji dat (napˇr. datab´aze). Nen´ı probl´em nahradit algoritmus Apriori jin´ym, v´ykonnˇejˇs´ım, algoritmem (napˇr. algoritmem FPTree[11]), nicm´enˇe pro pouˇzit´ı v klasifik´atoru, kde k f´azi tr´enov´an´ı doch´az´ı pouze zˇr´ıdka, nen´ı jeho pouˇzit´ı nezbytn´e.

(22)

Obr´azek 3.3: Data z tr´enovac´ı mnoˇziny jsou pˇredzpracovan´a a jsou z nich vydolovan´e asociaˇcn´ı pravidla. Na z´akladˇe pravidel je natr´enov´an asociaˇcn´ı klasifik´ator. Odbdobn´ym zp˚usobem probˇehne nalezen´ı pravidel u testovac´ı mnoˇziny dat; tato pravidla ale slouˇz´ı k validaci klasifik´atoru.

V dalˇs´ıch ˇc´astech t´eto kapitoly budou pops´any jednotliv´e f´aze ˇcinnosti algoritmu, tj. f´aze pˇredzpracov´an´ı dat, dolov´an´ı asociaˇcn´ıch pravidel, proˇrez´an´ı asociaˇcn´ıch pravidel a f´aze klasifikace nov´eho dokumentu.

3.3.2 Pˇredzpracov´an´ı dat

Dalˇs´ı z mnoha v´yhod metody spoˇc´ıv´a ve snadn´em pˇrizp˚usoben´ım se na r˚uzn´e zdroje dat -textov´a data, relaˇcn´ı, transakˇcn´ı aj. Origin´aln´ı verze metody pracuje nad textov´ymi daty a oˇcek´av´a dokumenty ve tvaru Di={Cati, t1, t2, t3,. . . tn. Pro spr´avnou funkˇcnost

klasi-fik´atoru je nutn´e data pˇrev´est do t´eto podoby, nebo modifikovat algoritmus pro dolov´an´ı asociaˇcn´ıch pravidel. Teoreticky je moˇzn´e pouˇz´ıt jak´ykoliv algoritmus pro dolov´an´ı aso-ciaˇcn´ıch pravidel, ˇc´ımˇz se znaˇcnˇe rozˇsiˇruj´ı moˇznosti klasifikace.

3.3.3 Dolov´an´ı asociaˇcn´ıch pravidel

Pokud jiˇz m´ame pˇripravena vstupn´ı data, algoritmem Apriori se vygeneruj´ı asociaˇcn´ı pravidla. V nˇekter´ych pˇr´ıpadech (velmi ˇcasto) m˚uˇzeme narazit na probl´em, ˇze vygenerovan´ych pravidel je pˇr´ıliˇs velk´e mnoˇzstv´ı, z toho ˇrada m˚uˇze b´yt pro klasifikaci zbyteˇcn´a. Z tˇechto d˚uvod˚u se generuj´ı pouze pravidla, kter´e maj´ı na prav´e stranˇe oznaˇcen´ı nˇejak´e tˇr´ıdy ci.

(23)

Algoritmus 1 ARC-BC Dolov´an´ı asociaˇcn´ıch pravidel v dokumentech

Vstup: Mnoˇzina dokument˚u D ve tvaru Di={Cati, t1, t2, t3,. . . tn }, kde Cati je

kate-gorie pˇriˇrazen´a dokumentu, tn jsou vybran´e v´yrazy; Minim´aln´ı spolehlivost minsupp;

Minim´aln´ı spolehlivost minconf;

V´ystup: Mnoˇzina asociaˇcn´ıch pravidel ve tvaru t1∧ t2∧ t3∧ . . . ∧ tn⇒ Cati kde Cati je

kategorie a tj je nˇejak´y v´yraz;

1: C1 ←{ Kandid´ati na 1-frekventovan´e mnoˇziny a jejich podpora }

2: F1 ←{ Frekventovan´e 1-mnoˇziny a jejich podpora }

3: i = 2 4: while Fi−16= ∅ do 5: pi1 = i/2 6: pi2 = i − pi1 7: Ci= Fpi1 ./ Fpi2 8: Ci= Ci− {c|sizeof (c) 6= i} 9: Fi= {c ∈ Ci|support(c) ≥ minsupp} 10: end while 11: M =S i{c ∈ Fi|i ≥ 1} 12: R = ∅

13: for all frequent itemsets f in M do

14: najdi vˇsechny dx z D, kter´e obsahuj´ı f , a vytvoˇr asociaˇcn´ı pravidla rx: f ⇒ Catx

15: if confidence(rx) ≥ minconf then

16: R = R ∪ rx

17: end if

18: end for

V kroc´ıch (1 a 2) jsou nalezeni kandid´ati na frekventovan´e 1-mnoˇziny. V praxi to zna-men´a nal´ezt takov´e v´yrazy, kter´e jsou pravdiv´e v tolika dokumentech F , aby byla splnˇena podm´ınka minim´aln´ı podpory minsupp. Vytv´aˇren´ı i-frekventovan´ych mnoˇzin prob´ıh´a spo-jen´ım jiˇz vytvoˇren´ych frekventovan´ych mnoˇzin niˇzˇs´ıho ˇr´adu (kroky 4 − 11). Generov´an´ı se opakuje tak dlouho, dokud v dan´em kroku i, i ≥ 2 nejsou nalezen´e ˇz´adn´e frekven-tovan´e i-mnoˇziny. Po nalezen´ı vˇsech frekventovan´ych mnoˇzin Fi|i ≥ 1 v mnoˇzinˇe

doku-ment˚u D se nalezne mnoˇzina asociaˇcn´ıch pravidel MR, kter´a obsahuje pravidla R ve tvaru

R : t1∧ t2∧ t3∧ . . . ∧ tn⇒ Cati, viz. kroky (12 − 16).

3.3.4 Proˇrez´av´an´ı asociaˇcn´ıch pravidel

V´ystupem pˇredchoz´ı f´aze metody byla sada asociaˇcn´ıch pravidel, kter´a jist´ym zp˚usobem popisuj´ı textov´y dokument. Tˇechto pravidel m˚uˇze b´yt v nˇekter´ych pˇr´ıpadech velk´e mnoˇzstv´ı, coˇz zp˚usobuje r˚uzn´e komplikace pˇri n´asledn´e klasifikaci.

Jednak muˇze obrovsk´em mnoˇzstv´ı pravidel obsahovat ˇsum vedouc´ı k chyb´am pˇri klasi-fikaci, se zvyˇsuje doba klasifikace. Pro ˇreˇsen´ı probl´emu velk´eho poˇctu pravidel se prov´ad´ı proˇrez´an´ım asociaˇcn´ıch pravidel - odstranˇen´ım irelevantn´ıch a m´alo obecn´ych pravidel. V pˇr´ıpadˇe, kdy poˇzadujeme opravdu rychl´e odezvy (online zpracov´an´ı dotaz˚u atd . . . ) je proˇrez´an´ı asociaˇcn´ıch pravidel jiˇz v´ıce m´enˇe nutnost´ı, neˇz moˇznost´ı k pˇr´ıpadn´emu urychlen´ı. Pˇred samotn´ym proˇrez´an´ım je v´yhodn´e urˇcit poˇrad´ı, ve kter´em se budou pravidla v mnoˇzinˇe zpracov´avat podle Definice 3.3.5:

(24)

1. health=bad ∧ finance=bad ∧ children=0 ⇒ Class=looser (0.03, 0.85) 2. health=bad ∧ finance=perfect ∧ children=2 ⇒ Class=lucky (0.2, 0.95) 3. health=bad ⇒ Class=looser (0.4, 0.98)

4. health=good ∧ finance=bad ⇒ Class=healthy (0.23, 0.77)

Tabulka 3.1: Mnoˇzina R asociaˇcn´ıch pravidel nalezen´ych v prvn´ıch f´azi

Definice 3.3.5 Mˇejme pravidla R1: T 1 ⇒ C a R2: T 2 ⇒ C. Potom pravidlo R1 je obecnˇejˇs´ı neˇz pravidlo R2 pr´avˇe tehdy, kdyˇz T 1 ⊆ T 2.

Algoritmus pro proˇrez´an´ı pravidel je postaven na jednoduch´em principu - projdi mnoˇzinu vˇsech asociaˇcn´ıch pravidel, ponechej nejv´ıce obecn´a pravidla (s mal´ym poˇctem v´yraz˚u na lev´e stranˇe) s nejvyˇsˇs´ı spolehlivost´ı, ostatn´ı pravidla smaˇz. [1] navrhuj´ı algoritmus, kter´y prov´ad´ı jeˇstˇe agresivnˇejˇs´ı redukci poˇctu asociaˇcn´ıch pravidel, nicm´enˇe pro ´uˇcely dolov´an´ı napˇr. vizu´aln´ıch vlastnost´ı plnˇe vystaˇcuje postup podle Algoritmu 2.

Pˇredpokl´adejme, ˇze dolovac´ı algoritmus s f´aze 1 naˇsel sadu asociaˇcn´ıch pravidel, kter´a je v Tabulce 1.1. Mnoˇzina obsahuje ˇctveˇrici pravidel, kter´a klasifikuj´ı ˇclovˇeka podle hodnot atribut˚u health, finance a children do jedn´e ze tˇr´ıd {looser, healthy, lucky}. V z´avorce za aso-ciaˇcn´ımi pravidly je hodnota podpory pravidla support a hodnota spolehlivosti asociaˇcn´ıho pravidla confidence.

Tato pravidla jsou vstupem pro algoritmus proˇrez´an´ı pravidel, kter´y zjist´ı, ˇze pravidlo ˇ

c. 3 sv´ymi atributy na lev´e stranˇe pokr´yv´a pravidlo 1 a 2, pˇriˇcemˇz spolehlivost pravidla 3 je vyˇsˇs´ı neˇz spolehlivost 1. a 2. pravidla. Proto budou prvn´ı dvˇe pravidla odstranˇeny. Odstranˇen´ı pravidel je zcela logick´ym krokem - proˇc uchov´avat pravidla, kter´a maj´ı niˇzˇs´ı, pˇr´ıp. stejnou podporu (pravidlo t1 ⇒ c1 m´a vˇzdy vyˇsˇs´ı, nebo stejnou podporu jako pravidlo

t1∧ t2 ⇒ c1) a z´aroveˇn nemaj´ı vyˇsˇs´ı spolehlivost?

Algoritmus 2 Proˇrez´an´ı asociaˇcn´ıch pravidel

Vstup: Mnoˇzina R asociaˇcn´ıch pravidel z´ıskan´ych ve f´az´ı dolov´an´ı asociaˇcn´ıch pravidel V´ystup: Zredukovan´a mnoˇzina asociaˇcn´ıch pravidel R0 obsahuj´ıc´ı pravidla, kter´a budou

pouˇzita ve f´azi klasifikace

1: Seˇrad’ pravidla v R podle Definice 3.3.5

2: for all pravidla r in R do

3: najdi pravidla, kter´a jsou v´ıce obecn´a, neˇz r a odstraˇn ta, kter´a maj´ı niˇzˇs´ı spolehlivost, neˇz m´a r

4: end for

3.3.6 Klasifikace nov´eho dokumentu

Mnoˇzina asociaˇcn´ıch pravidel, kter´a proˇsla s´ıtem prozeˇr´an´ı pravidel v pˇredchoz´ım kroku tvoˇr´ı znalostn´ı b´azi klasifik´atoru. Podle tˇechto pravidel se bude klasifikaˇcn´ı algoritmus snaˇzit pˇredpovˇedˇet, do kter´e tˇr´ıdy novˇe pˇr´ıchoz´ı dokument patˇr´ı.

Proces pˇredpovˇedi prob´ıh´a tak, ˇze klasifik´ator proch´az´ı asociaˇcn´ı pravidla ve znalostn´ı b´azi a zkouˇs´ı, jestli lev´e strany pravidel (kde jsou v´yrazy) pokr´yvaj´ı nov´y dokument. V takov´em pˇr´ıpadˇe se pˇriˇrad´ı s jistou pravdˇepodobnost´ı dokument do tˇr´ıdy, kter´a je na prav´e stranˇe testovan´eho asociaˇcn´ıho pravidla.

(25)

Obecnˇe m˚uˇzeme rozliˇsit dva typy klasifikace. Nejjednoduˇsˇs´ı zp˚usob zaˇrazuje novˇe pˇr´ıchoz´ı dokument pr´avˇe do jedn´e tˇr´ıdy; do t´e, kter´a je podpoˇrena nejvyˇsˇs´ım souˇctem spolehlivost´ı asociaˇcn´ıch pravidel pokr´yvaj´ıc´ıch dokument. Nev´yhodou tohoto jednoduch´eho zp˚usobu klasifikace je, ˇze dokument m˚uˇze m´ıt spoleˇcn´e prvky s v´ıce tˇr´ıdami a klasifik´ator vybere pouze nejv´ıce dominantn´ı tˇr´ıdu.

Sofistikovanˇejˇs´ı zp˚usob umoˇzˇnuje dokument pˇriˇradit do v´ıce tˇr´ıd. Origin´aln´ı metoda prezentovan´a v [1] k tomu vyuˇz´ıv´a tzv. dominantn´ı faktor. V t´eto pr´aci byla pouˇzita zjednoduˇsen´a metodu, kter´a rozdˇel´ı pravidla pokr´yvaj´ıc´ı dokument podle kategorie na prav´e stranˇe, a podle spolehlivosti pravidel pro kaˇzdou tˇr´ıdu urˇci, jak velk´a je d˚uvˇera v to, ˇze dokument patˇr´ı pr´avˇe do t´e konkr´etn´ı tˇr´ıdy.

Algoritmus 3 Klasifikace nov´eho dokumentu

Vstup: Nov´y dokument o; asociativn´ı klasifik´ator (ARC); minim´aln´ı spolehlivost (pr´ah spolehlivosti) c

V´ystup: Kategorie, ke kter´ym je nov´y dokument pˇriˇrazen;

1: S ← ∅

2: for all asociaˇcn´ı pravidla r v ARC do

3: if r ⊂ o then

4: proved’ cnt = cnt + 1

5: end if

6: if cnt == 1 then

7: f rc ← spolehlivost pravidla r

8: pˇridej pravidlo r do mnoˇziny S

9: else if spolehlivost pravidla r > f rc − c then

10: pˇridej pravidlo r do mnoˇziny S

11: else

12: exit

13: end if

14: end for

15: rozdˇel mnoˇzinu S do mnoˇzin podle kategori´ı: S1, S2, . . . , Sn

16: for all vytvoˇren´e mnoˇziny S1, S2, . . . , Sn do

17: spoˇc´ıtej souˇcet spolehlivost´ı pravidel v mnoˇzinˇe Sk a vydˇel tento souˇcet poˇctem

pravidel v Sk

18: end for

(26)

Kapitola 4

avrh syst´

emu pro klasifikaci

webov´

ych str´

anek

V pˇredchoz´ıch kapitol´ach byl diskutov´an probl´em klasifikace dokument˚u, vˇcetnˇe dokument˚u na Webu, byly vysvˇetleny metody, kter´e byly pro klasifikaci s postupem ˇcasu navrˇzen´e a n´aslednˇe otestovan´e. Pr´ace se zamˇeˇruje na klasifikace webov´ych str´anek z pohledu n´avrhu komplexn´ıho klasifik´atoru, tedy klasifik´atoru, kter´y by souˇcasnˇe klasifikoval na z´akladˇe tex-tov´eho charakteru dat a z´aroveˇn na z´akladˇe vizu´aln´ıch vlastnost´ı (rozloˇzen´ı str´anky) ve formˇe dat relaˇcn´ıch. T´eto ´uloze se zat´ım podrobnˇejˇs´ı v´yzkumy vyh´ybaly, ˇc´asteˇcnˇe se prob-lematice klasifikace podle vzhledu str´anek vˇenuje [20].

C´ılem pr´ace bude pokusit se o pˇrizp˚usoben´ı textov´eho klasifikaˇcn´ı metody ARC-BC pro relaˇcn´ı data. Metoda byla vybran´a jednak s ohledem na dostateˇcnou pˇresnost klasifikace textov´ych dat [1], jednak proto, ˇze jsou v´ysledky metody ve formˇe asociaˇcn´ıch pravidel snadno srozumiteln´e a pˇrehledn´e. Dalˇs´ım d˚uvodem bylo to, ˇze znalosti ve formˇe asociaˇcn´ıch pravidel maj´ı dobr´y pˇredpoklad b´yt vhodn´ym typem pro klasifikaci pr´avˇe relaˇcn´ıch dat.

4.1

Popis

V pˇr´ıpadˇe dobr´ych v´ysledk˚u klasifikace v´yˇse zm´ınˇen´eho klasifik´atoru by bylo moˇzn´e jednoduch´ym zp˚usobem sestrojit multikriteri´aln´ı klasifikaˇcn´ı syst´em pro klasifikaci webov´ych str´anek. Takov´y syst´em by sest´aval z n´asleduj´ıc´ıch ˇc´ast´ı:

• Syst´em pro extrakci vizu´aln´ıch vlastnost´ı z webov´ych str´anek

Jedn´ım z probl´em˚u klasifikace podle vizu´aln´ıch vlastnost´ı je vydolov´an´ı informac´ı z webov´ych str´anek. Touto problematikou se zab´yv´a Ing. Radek Burget PhD., kter´y pro potˇreby projektu poskytne data z´ıskan´a vizu´aln´ım analyz´atorem webov´ych str´anek. Analyz´ator pracuje na principu detekce oblast´ı webov´e str´anky.

• Syst´em pro extrakci textov´ych informac´ı z webov´ych str´anek

Tato ˇc´ast syst´emu by se starala o extrakci textov´ych dat z webov´ych str´anek. • Klasifik´ator ARC-BC

Samotn´a klasifikace pˇripraven´ych dat by byla jednoduˇsˇse realizovan´a ARC-BC klasi-fik´atorem, kter´y bude sest´avat z vˇsech pˇr´ısluˇsn´ych ˇc´ast´ı - z ˇc´asti pro dolov´an´ı aso-ciaˇcn´ıch pravidel, z ˇc´asti pro proˇrez´an´ı asociaˇcn´ıch pravidel a z ˇc´asti pro klasifikaci nov´ych dokument˚u. Klasifik´ator by ze vstupn´ıch textov´ych dat a dat vizu´aln´ıch vlast-nost´ı klasifikoval str´anku do pˇr´ısluˇsn´e tˇr´ıdy.

(27)

Obr´azek 4.1: Syst´em pro klasifikaci webov´ych str´anek podle vizu´aln´ıch vlastnost´ı

Obr´azek 4.1 zachycuje princip ˇcinnosti klasifikaˇcn´ıho syst´emu (zde pouze vizu´aln´ıch vlastnost´ı). Nejdˇr´ıve doch´az´ı k v´ybˇeru str´anek, kter´e budou reprezentovat tr´enovac´ı mnoˇzinu. Analyz´ator vizu´aln´ıch vlastnost´ı z nich potom vydoluje informace o vzhledu a poˇsle je do syst´emu pro pˇredzpracov´an´ı dat. Zde se provede selekce relevantn´ıch vlastnost´ı a transfor-mace dat do vhodn´e podoby. Klasifik´ator pouˇzije tato data pro natr´enov´an´ı a otestov´an´ı vlastnost´ı. Podle dosaˇzen´ych v´ysledk˚u pak dojde bud’ k dalˇs´ım pokus˚um s v´ybˇerem vlast-nost´ı pro klasifikaci (pˇr´ıp. k v´ybˇeru nov´e mnoˇziny str´anek), nebo se proces klasifikace ukonˇc´ı a klasifik´ator bude pˇripraven´y pro klasifikaci str´anek.

4.2

C´ıl projektu

Hlavn´ı idea projektu tkv´ı v centralizovan´em pojet´ı klasifikace webov´ych str´anek. Je zn´amo mnoho metod pro klasifikaci textov´ych dat, stejnˇe tak mnoho metod pro klasifikaci dat relaˇcn´ıch. C´ılem t´eto pr´ace je pouˇz´ıt nˇekterou ze stav´aj´ıc´ıch klasifikaˇcn´ıch metody a pokusit se ji pˇrizp˚usobit pro relaˇcn´ı data, ˇc´ımˇz by bylo n´aslednˇe moˇzn´e jej vyuˇz´ıt pro zpracovan´ı strukturovan´e(semistukturovan´e) i nestrukturovan´e ˇc´asti webov´eho dokumentu. Pro tento ´

uˇcel jsem zvolil metodu ARC-BC.

Je zˇrejm´e, ˇze v pr˚ubˇehu adaptace klasifik´atoru na relaˇcn´ı data bude potˇreba modifikovat algoritmus metody ARC-BC a zab´yvat se probl´emy (jako napˇr. diskretizace num. atribut˚u), o kter´ych v pˇr´ıpadˇe dat textov´ych nen´ı nutn´e uvaˇzovat.

Sestrojen´a klasifikaˇcn´ı metoda bude po implementaˇcn´ı ˇc´asti podrobena d˚ukladn´emu testov´an´ı s c´ılem urˇcit m´ıru jej´ı pouˇzitelnosti na relaˇcn´ıch datech. Pro testov´an´ı budou mimo urˇcen´ych dat z´ıskan´ych anal´yzou oblast´ı str´anek pouˇzit´e nav´ıc dalˇs´ı dva datov´e soubory.

(28)

Kapitola 5

Vstupn´ı data

V t´eto kapitola budou pˇredstaveny vstupn´ı datov´e soubory pro klasifikace. Hlavn´ım zdro-jem dat jsou data z´ıskan´e anal´yzou vizu´aln´ıch vlastnost´ı str´anek. Daˇsimi pouˇzit´ymi daty, kter´a jsou urˇcena pro pˇr´ım´e porovn´an´ı vlastnostn´ı klasifikaˇcn´ı metody, jsou datov´e soubory NURSERY a ADULT.

N´asleduj´ıc´ı ˇc´ast pr´ace se vˇenuje podrobn´emu popisu tˇechto datov´ych soubor˚u, zejm´ena pak atribut˚um z´aznam˚u a jejich moˇzn´ym hodnot´am.

5.1

Popis dat ke klasifikaci

Data z´ıskan´a anal´yzou oblast´ı jsou uloˇzena v jedn´e tabulce relaˇcn´ı datab´aze a odpad´a tak pr´ace s vytv´aˇren´ım dotaz˚u pro spojov´an´ı tabulek. Celkem je v datech sledov´ano 9 atribut˚u oblast´ı webov´ych str´anek, atribut category u kaˇzd´eho z´aznamu tabulky ud´av´a pˇr´ısluˇsn´y typ oblasti str´anky.

fontsize pr˚umˇern´a velikost p´ısma v procentech, kde 100% je pr˚umˇern´a velikost p´ısma v cel´em dokumentu

weight pˇrevaˇzuj´ıc´ı v´aha p´ısma v oblasti (tuˇcn´e nebo netuˇcn´e)

style pˇrevaˇzuj´ıc´ı sklon p´ısma v oblasti

(norm´aln´ı nebo sklonˇen´e)

aabove, abelow, aleft, aright poˇcet oblast´ı vyskytuj´ıc´ıch se nad, pod, vlevo a vpravo od dan´e oblasti v r´amci rodiˇcovsk´e oblasti

tlength poˇcet znak˚u textu v oblasti

tdigits, tlower, tupper, tspaces poˇcet ˇc´ıslic, mal´ych a velk´ych p´ısmen abecedy a mezer v textu

textbtns pr˚umˇern´a svˇetelnost (luminosity) textu

bgbtns pr˚umˇern´a svˇetelnost pozad´ı

contrast pr˚umˇern´y rozd´ıl svˇetelnosti textu a pozad´ı

Tabulka 5.1: Popis atribut˚u oblast´ı testovac´ıch dat ([Kunc, Burget])

(29)

ˇ

c´astem webov´ych str´anek.

h1 nadpis hlavn´ıho ˇcl´anku h2 nadpis bˇeˇzn´eho ˇcl´anku

h3 nadpis aktuality nebo zpr´avy mˇenˇs´ıho v´yznamu (upout´avky apod.) aktualita kr´atk´a zpr´ava nebo aktualita

menu navigaˇcn´ı oblast

date datum publikov´an´ı, obvykle i se jm´enem autora none ostatn´ı neanotovan´e oblasti

Tabulka 5.2: Vybran´e tˇr´ıdy pro klasifikaci testovac´ıch dat([Kunc, Burget])

5.1.1 Format ARFF a jeho pˇrevod

Datov´y form´at ARFF(Attribute-Relation File Format ) je form´at textov´eho souboru s daty uloˇzen´ymi ve formˇe tabulek (jak je tomu obdobnˇe u relaˇcn´ıch datab´az´ı). Form´at ARFF je urˇcen zejm´ena pro pouˇzit´ı s dolovac´ım syst´emem Weka, kter´y tak´e umoˇzˇnuje exportovat data z ARFF do CSV souboru. Z tohoto souboru jsou n´aslednˇe data do datab´aze vloˇzena standartn´ım pˇr´ıkazem jazyka SQL.

5.2

Popis dat testovac´ı datab´

aze NURSERY

Datab´aze NURSERY byla vytvoˇrena z hierarchick´eho rozhodovac´ıho modelu sestrojen´eho jako zdroj dat pro ohodnocen´ı ˇzadatel˚u o m´ısto v mateˇrsk´e ˇskolce. Z d˚uvodu velk´eho z´ajmu rodiˇc˚u o um´ıstˇen´ı d´ıtˇete do mateˇrsk´e ˇskolky a kapacitn´ıch omezen´ı nebylo moˇzn´e pˇrijmout vˇsechny ˇzadatele a ˇskolka pˇrij´ımala pouze nˇekter´e pˇredˇskol´aky. A jak tomu vˇetˇsinou b´yv´a, byla snaha o pˇrijet´ı “nejvhodnˇejˇs´ıch” ˇzadatel˚u, resp. nepˇrijet´ı potenci´alnˇe problematick´ych dˇet´ı (napˇr. z d˚uvod˚u obavy z infekˇcn´ıch nemoc´ı, neplacen´ı ˇskoln´eho atd...). O kaˇzd´em ˇ

zadateli je v datab´az´ı vedeno osm atribut˚u a tˇr´ıda (C1 - C5) do kter´e byl ˇzadatel podle hodnot atribut˚u zaˇrazen. Cel´a datab´aze m´a podobu jedn´e tabulky se vˇsemi potˇrebn´ymi ´

udaji.

Zvl´aˇstnost´ı datab´aze NURSERY je fakt, ˇze dom´eny atribut˚u maj´ı velmi mal´y poˇcet prvk˚u a nav´ıc jsou tyto atributy nenumerick´eho charakteru - jedn´a se o ˇretˇezce znak˚u. Proto nen´ı nutn´e prov´adˇet diskretizaci numerick´ych atribut˚u a v´ysledky klasifikace datov´eho souboru NURSERY mohou b´yt pouˇzity pro urˇcen´ı vlastnost´ı samotn´e klasifikaˇcn´ı metody nezat´ıˇzen´e moˇzn´ymi zkreslen´ymi ´udaji diskretizaˇcn´ıho algoritmu.

parents vztahy mezi rodiˇcem a d´ıtˇetem {usual, pretentious, great pret} has nurs z´azem´ı d´ıtˇete {usual, pretentious, great pret}

form rodinn´y stav {completen, completed, incomplete, foster} children poˇcet dˇet´ı v rodinˇe {1, 2, 3, more}

housing stav bydlen´ı rodiny d´ıtˇete{convenient, less conv, critical} social soci´aln´ı schopnosti {non pron, slightly prob, problematic} health zdravotn´ı vztah d´ıtˇete{recommended, priority, not recom}

References

Related documents

product/software plus a few fictional personal/demographic details to make it a realistic character. However, in computing fields, such as HCI, there is a lack of

or information about their expertise, which is repeated mainly with Negation feedback. Social: we mean context information related to a user’s role at work, and

The first part you define is the control arm. You begin by building its hardpoints. You can later modify these hardpoints to determine their effects on your vehicle. Next, you

21st Century Learning 22 Mobile Learning 26 Seamless Learning 26 Collaboration 27 Learner Autonomy 28 Presence 29 Critical Literacies 31 Transactional Distance 32

To capture CNVs within CDH candidate regions, we developed and tested a targeted array comparative genomic hybridization platform to identify CNVs within 140 regions in 196 patients

Tobacco-attributable cancers are a cause of significant differences in life expectancy between males and females and contribute to male excess mortality rates in Poland.. Ac-

For example and as in Table 5, regressing a Health indicator (Healthy Life Expectancy) on a QoG variable (Government Effectiveness) and two Health Spending variables (Government

antioxidant enzyme assay indicated that there was marked increase in the level of lipid peroxidation and decrease in the level of antioxidant enzyme in hypothyroid and