Analysis of Relations Between Web Pages and Used Patterns

(1)

Fakulta elektrotechniky a informatiky

Katedra informatiky

Anal ýza vztah ˚u webov ých str ánek a

pouˇzit ´ych vzor ˚u

Analysis of relations between web

pages and used patterns

(2)

(3)

(4)

C´ılem práce je implementace metod pro automatickou detekci vybran ých webov ých vzor ˚u na webov ých stránkách a proveden´ı experiment ˚u vycházej´ıc´ıch z popisu webov ých stránek pomoc´ı návrhov ých vzor ˚u. V teoretické ˇcásti uvedu pˇrehled metod vyuˇziteln ých pro z´ıskán´ı informac´ı z webov ých stránek. Metody, které implementuji, vycházej´ı z Gestalt princip ˚u (bl´ızkost, podobnost, souvislost, celek). Práce se zab ývá anal ýzou domény, v ýbˇerem ˇcasto se vyskytuj´ıc´ıch návrhov ých vzor ˚u a sestaven´ım kl´ıˇcov ých slov. Kl´ıˇcová slova jsem vyb´ıral ruˇcnˇe. V závˇeru práce jsem provedl testován´ı a vyhodnocen´ı v ýsledk ˚u.

Kl´ıˇcov á slova: automatická detekce, webové vzory, webové stránky, kl´ıˇcová slova, dolován´ı

textu, dolov´an´ı webu, kategorizace

Abstract

The goal is the implementation of methods for automatic detection of selected web pat-terns on the web pages and design experiments based on the description of Web pages using design patterns. In the theoretical part I will review the methods available for obtaining information from the website. Methods that implement are based on Gestalt principles (proximity, similarity, continuity, closure). The paper analyzes the domain by selecting frequently occurring design patterns and the establishment of key words. Key words I chose manually. Finally, I carried out testing and evaluation of results.

Keywords: automatic detection, web patterns, web site, keywords, text mining, web

(5)

DIS – Dokumentografick´e informaˇcn´ı syst´emy

DM – Data Mining

HAP – HTML Agility Pack

HTML – Hyper Text Markup Language

IDF – Inverse Document Frequency

ILP – Induktivn´ı Logick´e Programov´an´ı

IR – Information Retrieval

KS – Kl´ıˇcov´a Slova

SEO – Search Engine Optimization

SVD – Singular Value Decomposition

TF – Term Frequency

TFIDF – Term Frequency Inverse Document Frequency

TM – Text Mining

W3C – World Wide Web Consortium

WWW – World Wide Web

(6)

Obsah

1 Uvod´ 6

2 N´avrhov ´y vzor 9

3 DIS 10

3.1 Booleovsk ´y model . . . 11

3.2 Vektorov ´y model . . . 12

4 Mining 15 4.1 Data Mining . . . 15

4.1.1 ˇZivotn´ı cyklus Data Mining . . . 16

4.1.2 Kategorie metod . . . 19

4.2 Text Mining . . . 20

4.2.1 Pˇredzpracov´an´ı textu . . . 21

4.2.2 Klasifikace dokument ˚u . . . 22

4.2.3 Shlukov´an´ı . . . 23

4.2.4 Metody shlukov´an´ı . . . 24

4.3 Web Mining . . . 25

4.3.1 Web content mining . . . 25

4.3.2 Web structure mining . . . 26

4.3.3 Web usage mining . . . 27

5 Vlastn´ı metoda ˇreˇsen´ı 28 5.1 Metodika sbˇeru dat . . . 28

5.2 Metodika anal ´yzy dat . . . 29

5.3 Nastaven´ı automatick´e detekce . . . 32

5.4 Obrázky vybran ých návrhov ých vzor ˚u . . . 34

6 N´avrh ALGORITM ˚U 35 6.1 HTML Agility Pack (HAP) . . . 36

6.2 HTML TAG v XML souborech . . . 36

6.3 Smaz´an´ı a nahrazen´ı v textu . . . 36

6.4 Redundance v HTML . . . 37

6.5 Rozdˇelen´ı na tokeny . . . 38

6.6 Odstranˇen´ı diakritiky, Stop slova . . . 39

(7)

6.8 Odstranˇen´ı koncovky - kmen slova . . . 41

6.9 Datov´e typy - druh ´y pr ˚uchod . . . 42

6.10 Anal ´yza . . . 44

6.10.1 Vzor vyskytuj´ıc´ı se jednou . . . 44

6.10.2 Vzor vyskytuj´ıc´ı se v´ıcekr´at . . . 45

6.11 Podobnost vektor ˚u . . . 46

7 N´avrh aplikace 47 7.1 GUI . . . 47

7.2 Naˇcten´ı vstupn´ıch dat . . . 48

7.3 Vyhled´an´ı informac´ı . . . 48

8 Experimenty a vyhodnocen´ı v ýsledk ˚u 51 8.1 V ýsledky pro doménu Dovolená . . . 52

8.2 V ´ysledky pro dom´enu Diskuse . . . 54

8.3 V ýsledky pro doménu Technické údaje . . . 55

8.4 Hodnocen´ı klasifik´atoru . . . 57

8.4.1 Klasifikace Dovolen´a . . . 57

8.4.2 Klasifikace Diskuse . . . 57

8.4.3 Klasifikace Technick´e ´udaje . . . 58

8.4.4 Souhrnn´e v ´ysledky klasifikace . . . 58

9 Závˇer 60 10 Reference 62 Pˇr´ılohy 64 A Zdrojové k ódy 65 A.1 Rozdˇelen´ı na tokeny . . . 65

A.2 Anal ´yza 2 . . . 66

B Popis vzoru (XML) 68 B.1 Vzor dovolen´a . . . 68

B.2 Vzor diskuze . . . 69

B.3 Vzor technick´e ´udaje . . . 70

(8)

Seznam tabulek

1 Kl´ıˇcov´a slova . . . 30

2 Skupiny dokument ˚u . . . 30

3 Text v bloku . . . 31

4 Kl´ıˇcov´a slova v bloku . . . 31

5 Matice z´amˇen . . . 51

6 Matice z´amˇen: titulek . . . 53

7 Matice z´amˇen: Nab´ıdka dovolen´e . . . 53

8 Matice zámˇen: Vyhledán´ı dovolené . . . 53

9 Matice z´amˇen: Teplota . . . 54

10 Dovolená souhrnné v ýsledky . . . 54

11 Matice z´amˇen: titulek . . . 54

12 Matice z´amˇen: Pˇr´ıspˇevek . . . 55

13 Diskuse souhrnn´e v ´ysledky . . . 55

14 Matice z´amˇen: Titulek . . . 56

15 Matice zámˇen: Technick ý údaj . . . 56

16 Technické údaje souhrnné v ýsledky . . . 56

17 Matice z´amˇen: klasifikace Dovolen´a . . . 57

18 Matice z´amˇen: klasifikace Diskuse . . . 58

19 Matice z´amˇen: klasifikace Diskuse . . . 58

(9)

Seznam obr ´azk ˚u

1 Návrhov ý vzor Nab´ıdka dovolené . . . 9

2 Hodnocen´ı efektivity . . . 11

3 ˇZivotn´ı cyklus Data Miningu . . . 16

4 Pozice Data Miningu v procesu z´ıskáván´ı znalost´ı z databáz´ı . . . 18

5 N´avrhov ´y vzor Diskuze . . . 34

6 Návrhov ý vzor Technické údaje . . . 34

7 N´avrhov ´y vzor Poˇcas´ı . . . 34

8 Uˇzivatelsk´e rozhran´ı programu RWV . . . 47

(10)

Seznam v ýpis ˚u zdrojov ého k ódu

1 Pˇr´ıklad XML . . . 32

2 Seznam tag ˚u . . . 36

3 Seznam koˇren ˚u . . . 36

4 Maz´an´ı v textu . . . 37

5 Redundance v HTML . . . 37

6 Odstranˇen´ı diakritiky . . . 39

7 Rozdˇelen´ı vˇety podle mezer . . . 39

8 Poˇcet ˇc´ıslic . . . 40

9 Datov ´y typ telefonn´ı ˇc´ıslo . . . 40

10 Odstranˇen´ı koncovky . . . 42 11 Token cena . . . 43 12 Token teplota . . . 43 13 Anal ýza . . . 45 14 Obsahuje povinné . . . 45 15 Tokenizace . . . 65 16 Anal ýza 2 . . . 66

17 Vzor dom´eny dovolen´a . . . 68

18 Vzor dom´eny diskuze . . . 69

(11)

1 Uvod

´

Dneˇsn´ı svˇet je charakterizován exploz´ı objemu dat. Disky pojmou stále v´ıce dat, a proto neustále vzr ˚ustá i objem ukládan ých dat, at’ uˇz uˇziteˇcn ých nebo zbyteˇcn ých. Je pravdˇepodobné, ˇze v tˇechto datech je ukryto mnohem v´ıce informac´ı, neˇz které m ˚uˇzeme jednoduˇse vyˇc´ıst. Zpracován´ı dat z rozsáhl ých databáz´ı má v dneˇsn´ı Infor-matice nejr ˚uznˇejˇs´ı formy. Tradiˇcn´ı pˇr´ıstupy analyzuj´ı data prostˇrednictv´ım dotazovac´ıch nástroj ˚u SQL. Pˇresto existuje mnoho úloh, na které tyto bˇeˇzné pˇr´ıstupy nestaˇc´ı.

V souˇcasné dobˇe je Internet nejpouˇz´ıvanˇejˇs´ım zdrojem pro z´ıskán´ı informac´ı. Aby jsme z´ıskali relevantn´ı informace, potˇrebujeme k tomu tzv. vyhledávaˇc. Napˇr´ıklad Google1 nebo Seznam2. V´ıce v indexu search engines3. Pro správnou funkci potˇrebuje vyhledávaˇc mˇeˇrit kvalitu stránek pomoci tzv. Ranku (napˇr. PageRank u Google, S-Rank u Seznam). Obecnˇe vyhledávaˇc pracuje ve tˇrech kroc´ıch:

1. procházen´ı webov ých stránek 2. vytvoˇren´ı databáze v ýskytu slov 3. indexován´ı

Procházen´ı zajiˇst’uje program tzv. vyhledávac´ı robot, kter ý procház´ı stránky pˇres hyper-textové odkazy a snaˇz´ı se navˇst´ıvit ideálnˇe cel ý Internet. Stránky si ukládá do databáze a po ˇcase se k nim vrac´ı, aby sledoval zmˇeny. Z uloˇzen ých stránek robot vybere vˇsechna slova, která uloˇz´ı do databáze. Ke kaˇzdému slovu si pamatuje stránku kde se vyskytuje. T´ım vzniká velice obsáhl ý rejstˇr´ık. K urychlen´ı vyhledán´ı se pouˇz´ıvá indexován´ı. Index se tvoˇr´ı tak, aby se zobrazily na prvn´ıch m´ıstech stránky s nejvˇetˇs´ı relevanc´ı. Pro v ýpoˇcet rel-evance se pouˇz´ıvaj´ı r ˚uzné metody anal ýzy. Napˇr. váha slov (slovo se vyskytuje v titulku, frekvence slova, hustota), atraktivita (na stránku smˇeˇruje v´ıce odkaz ˚u), sponzorované odkazy (zaplacen´ım poplatku se zvyˇsuje váha) nebo technická kvalita (váha se zvyˇsuje pokud stránky vyhovuj´ı W3C4standard ˚um). Jin ý zp ˚usob jak dostat web na pˇredn´ı pozice je optimalizace pomoc´ı SEO. V´ıce o SEO zde [1].

Jin ý pˇr´ıstup poskytuje meta vyhledávaˇc Pattrio5. Jin ý v tom smyslu, ˇze pouˇz´ıvá metodu zaloˇzenou na sémantice webov ých stránek. Pracuje jak se strukturou, tak i s tex-tov ým obsahem stránky. V následuj´ıc´ıch vˇetách velice struˇcnˇe objasn´ım jak funguje Pat-trio. Vyhledávaˇc z´ıská stránku (napˇr´ıklad pˇres Google), která obsahuje slova zadaná

1_{http://www.google.cz} 2_{http://www.seznam.cz} 3 http://www.searchenginesindex.com 4 http://www.w3.org 5_{http://www.pattrio.net}

(12)

uˇzivatelem. Z tohoto dokumentu vybere pouze text. V textu hledá urˇcité úseky, která spl ˇnuj´ı kritéria. Tyto kritéria jsou popsané ve slovn´ıku návrhov ých vzor ˚u (knihovna návrhov ých vzor ˚u6). V pˇredchoz´ım kroku jsme textu pˇriˇradili sémantiku. Jestliˇze pat-trio rozhodl, ˇze se jedná o návrhov ý vzor, vyuˇzije této skuteˇcnosti a zobraz´ı ji ve v ýpisu relevantn´ıch stránek. T´ımto z´ıskáme dalˇs´ı uˇziteˇcné informace o stránce.

Zpracován´ım velkého mnoˇzstv´ı dat se zab ývá oblast nazvaná Information Retrieval. T´ımto zpracován´ım je myˇsleno ukládán´ı, anal ýzu, vyhledáván´ı, kategorizace, segmen-tace a sumarizace. Data, ve kter ých vyhledávám jsou dokumenty. Tyto dokumenty prezentuj´ı základn´ı jednotku textu. Rozsah dokument ˚u muˇze b ýt r ˚uzn ý. V této práci se zab ývám pouze webov ými stránkami, ale obecnˇe se jedná o literárn´ı d´ıla, novinové ˇclánky ˇci dokonce zvuk nebo video. V ýsledkem vyhledáván´ı je mnoˇzina dokument ˚u, která odpov´ıdá uˇzivatelskému dotazu.

C´ılem této práce je vytvoˇrit aplikaci, která bude schopna analyzovat a rozhodovat, zda webová stránka obsahuje relevantn´ıch informace. C´ılem je sestavit vlastn´ı mnoˇzinu návrhov ých vzor ˚u a na tˇech provádˇet experimenty. Pro experimenty jsem shromáˇzdil kolekci webov ých stránek. Pˇri tvorbˇe této práce bylo potˇreba z´ıskat znalosti z nˇekolika oblast´ı a ˇreˇsit r ˚uzné problémy. To jsem shrnul do nˇekolika bod ˚u.

• N´avrhov ´y vzor

• DIS (Modely pouˇz´ıvané pro vyhledáván´ı dokument ˚u) • Data mining, Text mining, Web mining

• N´avrh vlastn´ı metody ˇreˇsen´ı • N´avrh a implementace aplikace • Experimenty

Struktura práce se bude drˇzet tˇechto bod ˚u. V kapitole 2 vysvˇetl´ım co je návrhov ý vzor7_. V kapitole DIS uvád´ım dva modely. Prvn´ı z nich je model booleovsk ý. Tento model mohu vyuˇz´ıt pro popis a vyhledán´ı dokumentu, ve kterém jsem jiˇz objevil (neob-jevil) návrhov ý vzor. U takového dokumentu udrˇzuji seznam, kter ý obsahuje název návrhového vzoru a hodnotu ano/ne. Pomoc´ı tohoto seznamu mohu vyhledat jen ty dokumenty, které obsahuj´ı urˇcité návrhové vzory. Druh ý z model ˚u je model vektorov ý, kter ý pop´ıˇsu v kapitole 3.2. Vektorov ý model vyuˇz´ıvám k popisu dokument ˚u a vy-hodnocen´ı podobnosti s dotazem. Dokument popisuji pomoc´ı návrhov ých vzor ˚u. Ve

6

http://www.welie.com/patterns/

(13)

svoj´ı práci ohodnocuji váhu slova (návrhového vzoru) podle metody TF (poˇcet v ýskyt ˚u v dokumentu). Jin ým zp ˚usobem hodnocen´ı je metoda TFIDF, která zohled ˇnuje frekvenci termu v ostatn´ıch dokumentech. Pomoc´ı této metody bych mohl automaticky vypoˇc´ıtat váhu návrhového vzoru s ohledem na to v kolika jin ých dokumentech (jiná doména) se návrhov ý vzor vyskytuje.

V kapitole 4.1 objasn´ım co je Data mining. Data mining jsem zde uvedl, protoˇze moje práce vyuˇz´ıvá metody porozumˇen´ı a predzpracován´ı dat. Kapitola 4.2 pojednávám o Text miningu. Text mining se mimo jiné zab ývá zpracován´ım a pˇr´ıpravou textov ých dat a pˇresnˇe tyto problémy ˇreˇs´ım v této práci. V posledn´ı teoretické kapitole Web mining jsem popsal pouˇzit´ı návrhov ých vzor ˚u pro popis a klasifikaci webov ých stránek. To je základn´ı myˇslenka, kterou vyuˇz´ıvá tato práce.

(14)

2 N ´avrhov ´y vzor

V této práci budu pouˇz´ıvat pojem návrhový vzor a vzor. Tyto dva term´ıny nejsou ekviva-lentn´ı. Vysvˇetl´ım v následuj´ıc´ım textu.

Návrhov ý vzor (design pattern)chápu jako popis charakteristick ých strukturáln´ıch rys ˚u a rys ˚u chován´ı, které zlepˇsuj´ı pouˇzitelnost architektury software, uˇzivatelského rozhran´ı, webov ých stránek nebo cokoliv jiného v zam ýˇslené doménˇe. V této práci pouˇz´ıvám návrhové vzory, které obsahuj´ı sémantické informace - vzory domén. V následuj´ıc´ım seznamu uvedu základn´ı rysy návrhov ých vzor ˚u:

• málo závisl ý na implementaci • závisl ý na vn´ımán´ı uˇzivatele

• komunikaˇcn´ı n´astroj mezi uˇzivatelem a program´atorem

• jednotlivé prvky konkrétn´ı instance vzoru jsou na stránce v´ıceménˇe pohromadˇe Pro lepˇs´ı pˇredstavu uvedu konkrétn´ı pˇr´ıklad návrhového voru Nab´ıdka zájezdu viz. obrázek 1. Struˇcn ý popis: Název vzoru: Nab´ıdka dovolené. Problém: potˇreba pˇrehledného

Obrázek 1: Návrhov ý vzor Nab´ıdka dovolené

zobrazen´ı informac´ı o zájezdu. Kdy uˇz´ıt?: prodej a nab´ıdka zájezd ˚u, tam kde je potˇreba zobrazit pˇrehledn ý seznam nab´ızen ých zájezd ˚u. Proˇc?: prodejce potˇrebuje pˇrehlednˇe a srozumitelnˇe zobrazit informaci o zájezdech. Jak?: zobrazen´ı jedné a v´ıce poloˇzek (typ-icky 4 a v´ıce). Obvykle obsahuje: název letoviska, obrázek, term´ın, poˇcet dn´ı, druh stravy, cenu, tlaˇc´ıtko pro v´ıce informac´ı nebo pro objednán´ı.

Vzor pouˇz´ıvám ve vztahu s Data miningem. Úkolem data miningu je extrakce zaj´ımav ých ne triviáln´ıch (potencionálnˇe uˇziteˇcn ých, skryt ých) souvislost´ı v datech. V ýsledkem je vytvoˇren´ı pravidel chován´ı, která se dlouhodobˇe opakuj´ı. Tato pravidla se naz ývaj´ı vzor. Pˇr´ıklad vzoru: v minulosti se data chovala podle nˇejakého vzoru (zákazn´ık, kter ý má vˇek vˇetˇs´ı neˇz 30 let a je ˇzenat ý, si obvykle kupuje velké rodinné auto), v budoucnu se chován´ı zákazn´ık ˚u nezmˇen´ı (zákazn´ık ˚um, kteˇr´ı maj´ı vˇek vˇetˇs´ı neˇz 30 let a jsou ˇzenat´ı nab´ızej rodinná auta. Napˇr´ıklad zaslán´ım akˇcn´ı nab´ıdky na email).

(15)

3 Dokumentografick ´e informa ˇcn´ı syst ´emy

Dokumentografické informaˇcn´ı systémy (DIS) pˇredstavuj´ı tˇr´ıdu programov ých nástroj ˚u, urˇcen ých pro zpracován´ı a v ýbˇer dokument ˚u. Obor, kter ým se DIS zab ývá se naz ývá In-formation Retrieval (vyhledáván´ı informaci). Vyhledán´ı informac´ı je ˇcinnost, jej´ımˇz c´ılem je v ýbˇer relevantn´ıch dokument ˚u. Souvis´ı s reprezentac´ı, ukládán´ım a pˇr´ıstupem k infor-mac´ım.

Objekty v Information Retrieval(dále jen IR) jsou vstupn´ı a v ýstupn´ı. Základn´ım vs-tupn´ım objektem je dokument. Dokument m ˚uˇze b ýt napˇr.: novinov ý ˇclánek, web, fo-tografie, ˇreˇc a zvuk, video. Kaˇzd ý dokument m ˚uˇze b ýt popisován pomoc´ı metadat, struk-tury textu a obsahu. Kaˇzd ý dokument m ˚uˇze b ýt popsán pomoc´ı DDL(document descrip-tion language). Jin ý vstupn´ı objekt je dotaz. Dotaz m ˚uˇze b ýt cokoliv z v ýˇse uveden ých. V ýstupn´ım objektem je obvykle mnoˇzina dokument ˚u. Tyto dokumenty tvoˇr´ı odpovˇed’ na dotaz a naz ývaj´ı se hity [20],[19].

T´ımto se dostáváme k hodnocen´ı efektivity vyhledávac´ıch systém ˚u. Pro zmˇeˇren´ı kvality m ˚uˇze b ýt d ˚uleˇzitá celá ˇrada faktor ˚u (rychlost, poskytnut´ı informace o rele-vantn´ıch dokumentech). Schopnost poskytnout informaci o relerele-vantn´ıch dokumentech se vyjadˇruje pomoc´ı dvou koeficient ˚u. Pojmem relevantn´ı dokument oznaˇc´ıme doku-ment, kter ý vyhovuje sv ým obsahem dotazu tazatele. Tedy ne vˇsechny dokumenty vy-brané jako odpov´ıdaj´ıc´ı uˇzivatelovu dotazu mus´ı b ýt relevantn´ı a naopak ne vˇsechny rel-evantn´ı dokumenty mus´ı odpov´ıdat dotazu.[14],[19]. Viz. obrázek 2 na stranˇe 11, kter ý je pˇrevzat ý z [20].

Popis obrázku 2. |Hr| - poˇcet vybran ých relevantn´ıch dokument ˚u, |R| - poˇcet vˇsech relevantn´ıch dokument ˚u v kolekci, |H| - poˇcet vˇsech vybran ých dokument ˚u.

• Koeficient pˇresnosti = |Hr|

|H| • Koeficient ´uplnosti =|Hr|

|R|

Koeficient pˇresnosti chápeme jako pravdˇepodobnost, ˇze vybran ý dokument je rel-evantn´ı. Koeficient úplnosti chápeme jako pravdˇepodobnost s jakou byly vybrány vˇsechny relevantn´ı dokumenty. V ideáln´ım pˇr´ıpadˇe by koeficienty mˇely b ýt rovny 1. Toho v praxi nelze dosáhnout. V praxi tedy uˇzivatel, kter ý po prvn´ım dotazu dostane pˇr´ıliˇs mnoho nerelevantn´ıch dokument ˚u, zaˇcne dotaz zpˇres ˇnovat, t´ım doc´ıl´ı toho, ˇze obdrˇz´ı v´ıce relevantn´ıch dokument ˚u, ale bude jich ménˇe.[14],[20]. V následuj´ıc´ı kapitole podrobnˇe pop´ıˇsu základn´ı dva modely. Jsou to Booleovsk ý a Vektorov ý.

(16)

Obr´azek 2: Hodnocen´ı efektivity

3.1 Booleovsk ´y model

Booleovské DIS pocházej´ı z 50. let. Jednalo se o prvn´ı systémy pro automatizaci kni-hovnictv´ı. Pˇresto se vˇsak tyto systémy ve velké m´ıˇre pouˇz´ıvaj´ı dodnes (pˇreváˇznˇe pro jejich snadnou implementaci). Kaˇzd ý dokument D je v indexu reprezentován pomoc´ı mnoˇziny term ˚u T = (t1, . . . , tm) , které jej co nejlépe popisuj´ı. Dokument D ⊆ T . Pˇriˇrazen´ı mnoˇziny term ˚u kaˇzdému dokumentu prob´ıhá dvˇema zp ˚usoby:

• Ruˇcn´ı - Nekonzistentn´ı. V´ıce lid´ı, kteˇr´ı ohodnocuj´ı dokument se nemus´ı shodnout na mnoˇzinˇe term ˚u. Jeden ˇclovˇek m ˚uˇze ohodnotit stejn ´y dokument jinak - subjek-tivn´ı pohled.

• Automatická - Konzistentn´ı, ale chyb´ı lidskost - porozumˇen´ı textu (synonyma). Mnoˇzina term ˚u je bud’ pˇredem daná a vyberou se ty, které jsou vhodné pro doku-ment, nebo se mnoˇzina term ˚u mˇen´ı s pˇrib ývaj´ıc´ımi dokumenty. V booleovském mod-elu je zaj´ımavˇe vytváˇren index. Ten totiˇz nen´ı tvoˇren tak, ˇze ke kaˇzdému dokumentu je pˇriˇrazena mnoˇzina term ˚u, které obsahuje, ale naopak, ke kaˇzdému termu je pˇriˇrazena mnoˇzina dokument ˚u, které dan ý term obsahuj´ı. Tohoto se vyuˇz´ıvá pˇri hledán´ı doku-ment ˚u (napˇr.: pr ˚unik mnoˇzin dokudoku-ment ˚u, které obsahuj´ı slovo A a mnoˇzina dokudoku-ment ˚u obsahuj´ıc´ı slovo B)

Dotaz je pak sestaven z term ˚u a logick ých spojek dávaj´ıc´ı logick ý v ýraz. Obecnˇe lze pouˇz´ıt následuj´ıc´ı logické spojky:

(17)

• AV

B: Logick ý souˇcin, konjunkce. Ve v ýsledku budou dokumenty, které obsahuj´ı A a zárove ˇn B.

• AW

B: Logick ý souˇcet, disjunkce. Ve v ýsledku budou dokumenty, které obsahuj´ı A nebo B.

• AL

B: Exkluzivn´ı souˇcet. XOR. Ve v ´ysledku budou dokumenty, kter´e obsahuj´ı A nebo B, ne vˇsak oba souˇcasnˇe.

• ¬A: Negace. Ve v ´ysledku budou dokumenty, kter´e neobsahuj´ı A.

Protoˇze pouˇzit´ım v ýˇse uveden ých pravidel by informaˇcn´ı systém moc kvalitn´ı nebyl, jsou pouˇz´ıvány dalˇs´ı rozˇs´ıˇren´ı:

• Sekund´arn´ı informace: datab´azeV

(autor= ˇSarmanová). • Zástupné znaky: * - pro v´ıce znak ˚u, ? - pro jeden znak • Proximitn´ı omezen´ı:

– A (m,n) B: slovo A je vzdáleno minimálnˇe m a maximálnˇe n slov od termu B.

– A vˇeta B: term A se vyskytuje ve stejn´e vˇetˇe jako term B (stejnˇe pro odstavec a kapitolu).

Problém booleovského modelu je pˇredevˇs´ım v neschopnosti seˇradit v ýsledek v poˇrad´ı (nejv´ıce relevantn´ı dokumenty jsou nejv´ıce nahoˇre). Dalˇs´ı nev ýhoda je sloˇzitost pokládán´ı dotazu, vˇsechny termy v dotazu i v identifikaci dokumentu jsou chápány jako stejnˇe d ˚uleˇzité, relevantn´ı dokumenty jsou pouze ty, které lexikálnˇe obsahuj´ı zadané pojmy. Pro nˇekteré dotazy dostaneme úplnˇe ˇspatné dokumenty. Nen´ı totiˇz jasné, zda hledan ý dokument má obsahovat souˇcasnˇe vˇsechny nebo jen nˇekteré pojmy (synonyma). [19]

V této práci booleovsk ý model zat´ım nevyuˇz´ıvám. Pokud bych tuto práci rozˇs´ıˇril, mohl bych booleovsk ý model pouˇz´ıt pro vyhledán´ı stránek, které obsahuj´ı jen urˇcité návrhové vzory. Metodou (popsanou dále v textu) z´ıskám návrhové vzory. Automat-icky (programem RWV) urˇc´ım, zda se návrhov ý vzor na stránce vyskytuje (ohodno-cen´ı ano/ne). Pomoc´ı booleovského dotazu z´ıskám stránky, které obsahuj´ı poˇzadované návrhové vzory. Pˇr. titulek AND nab´ıdka AND login AND NOT teplota.

3.2 Vektorov ´y model

Vektorov ý model vznikl v 70. letech. Snahou bylo odstranit problémy Booleovsk ých DIS. Hlavn´ım rozd´ılem oproti pˇredchoz´ımu modelu je reprezentace dokument ˚u a

(18)

uˇzivatelsk ých dotaz ˚u pomoc´ı vektor ˚u. Model obsahuje databázi D obsahuj´ıc´ı n doku-ment ˚u. D = (d1, . . . , dn). Dokumenty jsou popisovány pomoc´ı m term ˚u. T = (t1, . . . , tm). Kaˇzd ý dokument je reprezentován pomoc´ı vektoru vah ~di = (wi,1, . . . , wi,m) ∈ < 0, 1 >m. Pro vektor dotazu Q plat´ı stejná pravidla.

• Pokud wi,j = 0, znamen´a to, ˇze term tj nen´ı pro identifikaci dokumentu di v ˚ubec d ˚uleˇzit ´y.

• Pokud wi,j = 1, znamen´a to, ˇze term tj je pro identifikace dokumentu di velice d ˚uleˇzit ´y.

Indexov ´y soubor vektorov´eho modelu potom pˇredstavuje matici:

D =        w1,1 w1,2 · · · w1,m w2,1 w2,2 · · · w2,m .. . ... . .. ... wn,1 wn,2 · · · wn,m        ∈ < 0, 1 >n×m

Ohodnocen´ı slov ve vektorovém prostoru prob´ıhá následovnˇe. Hodnocen´ı slov je funkce, která kaˇzdému slovu pˇriˇrad´ı nˇejakou ˇc´ıselnou hodnotu. Existuje nˇekolik typ ˚u ohodnocen´ı slov.

1. Binárn´ı - pokud se slovo v dokumentu vyskytuje alespo ˇn jedenkrát, bude slovo ohodnoceno ˇc´ıslem 1, jinak 0. Je to velmi ztrátová reprezentace, ale v mnoha algo-ritmech poskytuje dobré v ýsledky. V´ıce v [14].

2. Frekvenˇcn´ı (TF) - u kaˇzdého slova spoˇc´ıtá jeho frekvenci. Frekvence kl´ıˇcového slova v dokumentu je ˇc´ıslo, které udává poˇcet v ýskyt ˚u kl´ıˇcového slova v dokumentu. Nˇekdy se pouˇz´ıvá normalizovaná frekvence kl´ıˇcového slova. Frekvence je normal-izovaná délkou dokumentu. V této práci vyuˇz´ıvám tuto metodu pro ohodnocen´ı. 3. TFIDF(Term Frequency Inverse Document Frequency) - Jedna z nejpouˇz´ıvanˇejˇs´ıch

metod. Tato metoda se snaˇz´ı zohlednit frekvenci slova vzhledem k jeho v ýskytu v ostatn´ıch dokumentech. ˇC´ım ˇcastˇeji se slovo vyskytuje v ostatn´ıch dokumentech, t´ım ménˇe d ˚uleˇzité bude.[8].

T F IDF = T Fi× log D DFi

T Fi je poˇcet v ´yskyt ˚u termu Ti v dokumentu. D je poˇcet vˇsech dokument ˚u. DFi je poˇcet dokument ˚u neobsahuj´ıc´ı term Ti.

(19)

Hlavn´ım problémem vektorového modelu je veliká dimenze. Z hlediska v ýˇse uve-den ých metod je problematické odvozovat závˇery ze stovek (tis´ıc ˚u) pˇr´ıklad ˚u, kde kaˇzd ý pˇr´ıklad obsahuje des´ıtky aˇz stovky atribut ˚u. Jednou z moˇznost´ı je pouˇz´ıt metody redukce dimensionality nebo pouˇz´ıt jen urˇcité term´ıny. Pro selekci atribut ˚u se dá pouˇz´ıt χ2 (chi-square test). Pro transformaci term´ınu lze pouˇz´ıt shlukován´ı, faktorovou anal ýzu, nebo indexaci latentn´ı sémantiky (LSI). Pro sn´ıˇzen´ı dimenze prostoru se pouˇz´ıvá metoda Sin-gulárn´ı rozklad (SVD). Ta nám umoˇz ˇnuje provést redukci dimenze prostoru dokumentu pˇri zachován´ı shluk ˚u. V´ıce o této metodˇe napsal Michal Krátk ý v [14].

V pˇredchoz´ım textu jsem popsal vˇsechny náleˇzitosti vektorového modelu a zb ývá popsat jak se provede v ýpoˇcet podobnosti mezi dotazem Q a dokumentem D. V praxi se pouˇz´ıvá velké mnoˇzstv´ı mˇer podobnost´ı, které vyjadˇruj´ı vztahy mezi dokumenty. V ýbˇer m´ıry podobnosti záleˇz´ı na jak ých datech chceme provádˇet v ýpoˇcet. Ja pouˇz´ıvám data intervalová, pro které se obvykle pouˇz´ıvá m´ıra Kosinová. Touto m´ırou se spoˇc´ıtá úhel, kter ý sv´ırá dokument D s dotazem Q. Viz vzorec (1). Dalˇs´ı m´ıry: Jaccradova viz. vzorec (2), Diceova m´ıra viz. vzorec (3).

Sim(Q, D) = n P i=1 (Di· Qi) s n P i=1 (Di)2· n P i=1 (Qi)2 (1) Sim(Q, D) = m P j=1 Qj ∗ Dj m P j=1 Qj+ m P j=1 Dj− m P j=1 Qj∗ Dj (2) Sim(Q, D) = 2 ∗ Pm j=1 Qj∗ Dj m P j=1 Qj+ m P j=1 Dj (3)

(20)

4 Mining

4.1 Data Mining

Data Mining (ˇcesky

”dolován´ı dat“) je proces hledán´ı informac´ı a znalost´ı ve velkém objemu dat. Jedná se o nástroj pouˇz´ıvan ý v oblasti anal ýzy dat, slouˇz´ıc´ı jako podklady pro manaˇzerské ˇcinnosti. Pro Data Miming se vyuˇz´ıvaj´ı technologie rozpoznán´ı vzor ˚u, statistické a matematické metody.

Prvn´ı náznaky se objevily v 60. letech. Rozvoj statistick ých metod, databázov ých aplikac´ı a umˇelé inteligence vedl k prvn´ımu vyuˇzit´ı data miningu v praxi. Mohl nas-tat problém s hledán´ım vzájemn ých vztah ˚u ve velk ých datov ých souborech. Ve velkém souboru m ˚uˇze vzniknout nepravidelná zmˇena v datech bez moˇznosti vytvoˇren´ı pravidla a bez praktického vyuˇzit´ı. V 90. letech byly vybudovány metody, umoˇz ˇnuj´ıc´ı vyhnout se pˇredchoz´ımu problému. Rostla poptávka po metodách zpracován´ı rozsáhl ých databáz´ı, které obsahuj´ı velké objemy dat. Z nich je obt´ıˇzné z´ıskat potˇrebná data pomoc´ı klasick ých tabulkov ých metod. To napomohlo k rychlému rozvoji Data Miningu a jeho rozˇs´ıˇren´ı do komerˇcn´ı praxe. Existuje ˇsiroká nab´ıdka specializovan ých softwaru pro tento úˇcel (napˇr. SAS Enterprise Miner, SPSS Clementine, STATISTICA Data Miner, Weka, Orange).

Definice 4.1 Data Mining je proces výbˇeru, prohledáván´ı a modelován´ı ve velkých objemech dat, slouˇz´ıc´ı k odhalen´ı dˇr´ıve neznámých vztah ˚u mezi daty za úˇcelem z´ıskán´ı obchodn´ı výhody.

Usama M. Fayyad

Dolován´ı dat je extrakce zaj´ımav ých netriviáln´ıch, potencionálnˇe uˇziteˇcn ých, skryt ých souvislost´ı(vzory, informace) ve velk ých objemech dat. DM slouˇz´ı k porozumˇen´ı dˇr´ıve neznám ých vztah ˚u mezi daty a tvoˇren´ı pravidel chován´ı, které se dlouhodobˇe opakuj´ı. Nˇekteré databáze jsou velice objemné, a tud´ıˇz orientace v nich je prakticky nemoˇzná (samotn ý tv ˚urce databáze nev´ı jaká data obsahuj´ı). Pro takovou databázi by bylo pˇr´ınosné pouˇz´ıt techniku, která by dokázala z tˇechto rozsáhl ých dat ”vytˇeˇzit“ d ˚uleˇzité informace nebo vzory chován´ı. V´ıce v [2], [3], [5].

Vzor v Data minigu chápu jako vztah mezi daty v databázi. Vysvˇetl´ım na pˇr´ıkladu: Zákazn´ık nakupuje pˇres internetov ý obchod. Koup´ı si nov ý digitáln´ı fotoaparát a zárove ˇn s n´ım si koup´ı pamˇet’ovou kartu. Takovou ˇcinnost provede polovina lid´ı, kteˇr´ı si kupuj´ı fotoaparát. Taková ˇcinnost se dá zobecnit do vzoru. Vzor popisuje pravidlo, ˇze pokud si zákazn´ık koup´ı fotoaparát je pravdˇepodobné, ˇze si koup´ı i pamˇet’ovou kartu. Tohoto faktu se dá vyuˇz´ıt pˇri tvorbˇe internetového obchodu (u fotoaparát ˚u um´ıst´ım i pamˇet’ové karty).

(21)

Obr´azek 3: ˇZivotn´ı cyklus Data Miningu

Zdroje dat

V následuj´ıc´ım seznamu uvedu pˇrehled r ˚uzn ých zdroj ˚u dat. Uvedeno v [4]. • Databáze, datové sklady

• Datov´e toky

• Strukturovan´a data, grafy, soci´aln´ı s´ıtˇe. • World Wide Web

4.1.1 ˇZivotn´ı cyklus Data Mining

Vznik standardizovaného metodologického postupu. CRoss-Industry Standard Proces for Data Mining (CRISP-DM)[6], je to standardizovan ý proces pro vˇsechny zdroje dat. Metodologie je vˇzdy stejná a popisuje data mining v následuj´ıc´ıch ˇsesti kroc´ıch. Jejich návaznost ukáˇze obrázek 3, kter ý je pˇrevzat ý z [6]. Jednotlivé procesy pop´ıˇsu.

• Porozumˇen´ı problematice (Business Understanding).

”Tato poˇcáteˇcn´ı fáze se zamˇeˇruje na pochopen´ı c´ıl ˚u projektu a poˇzadavk ˚u z manaˇzerského hlediska a

(22)

poté pˇreveden´ı tˇechto poznatk ˚u do definován´ı problému data miningu. V této fázi docház´ı také k návrhu a tvorbˇe plánu pro ˇreˇsen´ı daného problému.“ Citováno z [21].

• Porozumˇen´ı dat ˚um (Data Understanding).

”Fáze porozumˇen´ı dat ˚um zaˇc´ıná pr-votn´ım sbˇerem dat a pokraˇcuje aktivitami vedouc´ımi k seznámen´ı se s daty, urˇcen´ım kvality dat, prvn´ım nahlédnut´ım do dat nebo odhalen´ım zaj´ımav ých podmnoˇzin k vytváˇren´ı hypotéz pro skryté informace. Tyto hypotézy se v pr ˚ubˇehu celého procesu snaˇz´ıme potvrdit. Nˇekdy vˇsak m ˚uˇzeme hypotézu vyvrátit nebo naopak naj´ıt jiné ˇreˇsen´ı.“ Citováno z [21].

• Pˇr´ıprava dat (Data Preparation).

”Fáze pˇr´ıpravy dat zahrnuje vˇsechny aktivity na vybudován´ı koneˇcného datového souboru, kter ý bude zpracováván jednotliv ými analytick ými metodami. Tato data by tedy mˇela obsahovat údaje relevantn´ı k dané úloze a m´ıt podobu, která je vyˇzadována vlastn´ımi analytick ými algoritmy. Tento proces nelze správnˇe provést bez znalosti dat. ˇSpatná integrace dat by mohla vést ke znehodnocen´ı zdroj ˚u dat a ovlivnˇen´ı celkové kvality ˇreˇsen´ı.“ Citováno z [21]. • Modelován´ı (Modeling).

”V této fázi jsou zvoleny a aplikovány r ˚uzné modelovac´ı techniky a jejich parametry jsou kalibrované na optimáln´ı hodnoty. Obvykle exis-tuje ˇrada r ˚uzn ých metod pro ˇreˇsen´ı dané úlohy (doporuˇcuje se pouˇz´ıt v´ıce r ˚uzn ých metod a vybrat nˇekolik nejlepˇs´ıch, které postupuj´ı do dalˇs´ıho kroku) a vhodnˇe nas-tavit jejich parametry. Nˇekteré techniky maj´ı specifické poˇzadavky na podobu dat. Pak je tedy ˇcasto potˇreba pˇristoupit zpˇet k fázi pˇr´ıpravy dat.“ Citováno z [21]. • Vyhodnocen´ı (Evaluation).

”V této fázi máme sestaven ý model (nebo modely), kter ý se zdá m´ıt z hlediska anal ýzy dat vysokou kvalitu. Pˇred koneˇcn ým vyuˇzit´ım modelu je d ˚uleˇzité d ˚ukladnˇeji vyhodnotit model a pˇrezkoumat kroky vedouc´ı ke stavbˇe modelu k nabyt´ı jistoty, ˇze skuteˇcnˇe dosáhneme dan ých c´ıl ˚u. Hlavn´ım c´ılem je zjistit, zda existuje nˇejaká d ˚uleˇzitá záleˇzitost, která nebyla dostateˇcnˇe zahrnuta. Na konci této fáze by mˇelo b ýt dosaˇzeno rozhodnut´ı o vyuˇzit´ı v ýsledk ˚u data miningu. Dle z´ıskan ých v ýsledk ˚u je jiˇz moˇzno zváˇzit pˇr´ıpadnou implementaci celého procesu.“ Citováno z [21].

• Vyuˇzit´ı v ´ysledk ˚u (Deployment).

”Je posledn´ım krokem v celém procesu. Je vˇsak nutné podotknout, ˇze proces nekonˇc´ı, ale zaˇc´ıná se cyklicky opakovat. Pokud se zákazn´ık rozhodne v ýsledky data miningu implementovat do sv ých proces ˚u, je nezbytné modely udrˇzovat aktuáln´ı. Závislosti v datech se ˇcasem mˇen´ı, a pokud by systém nebyl dostateˇcnˇe robustn´ı ˇci pravidelnˇe aktualizován, je velmi

(23)

Obrázek 4: Pozice Data Miningu v procesu z´ıskáván´ı znalost´ı z databáz´ı

pravdˇepodobné, ˇze by ˇcasem pozbyl kvality, tak i zcela své funkce. Proto je nutné pravidelnˇe ovˇeˇrovat funkci modelu nov ými daty a t´ım udrˇzovat aktuálnost model ˚u. Vytvoˇren´ı modelu obecnˇe nen´ı konec projektu. Z´ıskané znalosti budou muset b ýt zorganizovány a prezentovány zp ˚usobem, aby je zákazn´ık mohl vyuˇz´ıt. V závislosti na úkolu m ˚uˇze b ýt tato fáze zcela prostá – pouhé sepsán´ı závˇereˇcné zprávy, nebo také sloˇzitá – zaveden´ı systému pro automatickou klasifikaci nov ých pˇr´ıpad ˚u.“ Citováno z [21].

Obrázek 4 je pˇrevzat ý z publikace [5]. Na obrázku 4 je zobrazena pozice Data Minigu v procesu z´ıskáván´ı(dolován´ı) informac´ı z databáze. V prvn´ım kroku se provede selekce dat. Pokud jsou data pro anal ýzu relevantn´ı jsou naˇctena z databáze. V následuj´ıc´ım kroku se uprav´ı data. Zde docház´ı k integraci v´ıce datov ých zdroj ˚u, ˇciˇstˇen´ı a úpravˇe dat do podoby, kterou vyˇzaduj´ı analytické nástroje a metody. Odstran´ı se ˇsum a nekonzis-tentn´ı data. V datech se m ˚uˇzou vyskytnout r ˚uzné chyby (zákazn´ık nakoupil zboˇz´ı pˇred t´ım neˇz se narodil), tyto chyby je potˇreba odhalit a opravit. V kroku 3 jsou data transfor-mována nebo slouˇcena do forem vhodn ých pro dolován´ı. Napˇr´ıklad se provede souhrn nebo agregace. Nˇekdy jsou procesy transformace a konsolidace dat aplikovány do pro-cesu v ýbˇeru dat, zvláˇstˇe pak v pˇr´ıpadˇe datov ých sklad ˚u. Nˇekdy je redukce dat provedena za úˇcelem z´ıskat menˇs´ı zastoupen´ı p ˚uvodn´ıch dat bez ztráty integrity. Krok 4 je základn´ı proces, kde se z´ıskávaj´ı datové vzory za pouˇzit´ı inteligentn´ıch metod. V posledn´ım kroku se urˇc´ı vzory. Uˇzivateli se vizuálnˇe prezentuj´ı data z´ıskané dolován´ım. Je vytvoˇren model, kter ý mus´ı pˇrinést uˇzitek. Pˇr´ıklad úlohy pro data mining: Kolik bude stát

(24)

poze-mek 50km od Ostravy? Které produkty se prodávaj´ı spoleˇcnˇe? Které produkty si lidé kupuj´ı spoleˇcnˇe s jin ými? [4]

4.1.2 Kategorie metod

Data mining se dá pouˇz´ıt na ˇreˇsen´ı mnoha r ˚uzn ých problém ˚u. Podle druhu problému m ˚uˇzeme vytvoˇrit urˇcité skupiny, které maj´ı za c´ıl postihnout neznámé vztahy mezi daty. Jednotná podoba dˇelen´ı nen´ı definována. M ˚uˇzeme se setkat s r ˚uzn ými skupinami. Já jsem vybral dˇelen´ı podle Usamy Fayyada [5]. Fayyad urˇcuje dva hlavn´ı c´ıle data miningu, predikci a deskripci.

• Predikce Umoˇz ˇnuje pˇredpov´ıdat budouc´ı hodnoty atribut ˚u na základˇe nalezen ých vzor ˚u v datech. Tyto metody se daj´ı vyuˇz´ıt napˇr´ıklad pro pˇredpovˇed’ poˇcas´ı, v ývoj ceny na burze a mnoho dalˇs´ıch.

• Deskripce Je brána jako samozˇrejmost. Pokud chcete nˇekomu pˇredat nˇejaké infor-mace, mus´ıte b ýt schopni danou skuteˇcnost popsat. Deskripce popisuje nalezené vzory a vztahy v datech, které mohou ovlivnit rozhodován´ı.

C´ıl ˚u predikce a deskripce je dosaˇzeno pomoc´ı n´asleduj´ıc´ıch ´ukol ˚u:

• Klasifikace. Klasifikace rozdˇeluje objekty podle jejich charakteristick ých rys ˚u do jednotliv ých klasifikaˇcn´ıch tˇr´ıd. Tato tˇr´ıda (m ˚uˇzeme naz ývat doména) je vytvoˇrená pˇredem z mnoˇziny trénovac´ıch dat. Kaˇzd ý objekt m ˚uˇzeme nˇekam zaˇradit. (Napˇr.: stránky internetového obchodu m ˚uˇzeme urˇcitˇe zaˇradit mezi tˇr´ıdu nákup)

• Regrese. Data která jsou obsaˇzena v databázi maj´ı informativn´ı hodnotu, ze které m ˚uˇzeme pˇredpov´ıdat jaké dalˇs´ı hodnoty budou následovat.

• Shlukován´ı. Shlukován´ı je skupina metod, které tvoˇr´ı shluky dat. Vstupn´ı mnoˇzina dat je rozdˇelena nˇekterou z technik do shluk ˚u (poˇcet takov ých skupin je znám bud’ pˇredem, nebo aˇz pˇri pr ˚ubˇehu shlukován´ı). Pouˇz´ıvan ými technikami jsou rozhodovac´ı stromy, neuronové s´ıtˇe, logistická regrese, diskriminaˇcn´ı anal ýza. • Sumarizace. Zahrnuje metody pro hledán´ı uceleného popisu podmnoˇziny dat

- podává pˇrehled o struktuˇre dat. Nˇekteré metody zahrnuj´ı odvozen´ı pravidel z v´ıcerozmˇern ých zobrazovac´ıch metod a objeven´ı funkˇcn´ıch vztah ˚u mezi nimi. Jsou aplikovány na pr ˚uzkumné anal ýzy dat a automatické vytváˇren´ı zpráv.

(25)

• Modelován´ı závislost´ı. Hledá model, kter ý popisuje d ˚uleˇzité závislosti mezi promˇenn ými. Rozdˇelujeme jej na dvˇe úrovnˇe: 1. Strukturáln´ı úrove ˇn modelu (speci-fikuje promˇenné, které jsou na sobˇe logick ý závislé, ˇcasto graficky). 2. Kvantitativn´ı

úrove ˇn modelu specifikuje s´ıly závislost´ı za pouˇzit´ı ˇc´ıselné stupnice.

• Detekce zmˇen a odchylek. Kontroluje nejpodstatnˇejˇs´ıch zmˇeny v datech od p ˚uvodnˇe namˇeˇren ´ych nebo normativn´ıch hodnot.

4.2 Text Mining

V posledn´ıch letech lze vidˇet ohromn ý nár ˚ust mnoˇzstv´ı dokument ˚u dostupn ých na In-ternetu, nebo napˇr. v podnikov ých intranetech. S rostouc´ım poˇctem dat vzr ˚ustá potˇreba po kvalitn´ıch metodách, které vyhledávaj´ı a zpracovávaj´ı texty. Textová data jsou ob-vykle uloˇzena v nestrukturované podobˇe (obyˇcejn ý text v ˇclánku). Data obob-vykle nejsou uloˇzena v databáz´ıch, ale pˇredevˇs´ım na webov ých serverech, souborov ých systémech nebo na PC. Pˇr´ıklad dat pro Text Mining:

• elektronick´a poˇsta

• internetové dokumenty (poznámky, prezentace, zápisky) • technické zprávy

• informaˇcn´ı kan´aly

Vyhledáván´ım a zpracován´ım text ˚u se zab ývá Text Mining(TM). TM je jedna z úloh obecného Data Miningu(DM), kter ý jsem popsal v kapitole 4.1. V dneˇsn´ım svˇetˇe inter-netu je vˇetˇsina (témˇeˇr 80%) vˇsech informac´ı uloˇzena v podobˇe textov ých dokument ˚u (pouh ých 20% je strukturovanˇe uloˇzeno v databáz´ıch). Z d ˚uvodu rozd´ılnosti dat se oddˇelilo dolován´ı v textech od dolován´ı v datech. Bylo potˇreba vytvoˇrit nové metody pˇredzpracován´ı a zpracován´ı text ˚u. U TM usilujeme o extrakci zaj´ımav ých vzor ˚u z tex-tov ých dokument ˚u. Nejd ˚uleˇzitˇejˇs´ı úlohy Text Miningu jsou:

• Kategorizace • Shlukov´an´ı

• Extrakce informac´ı • Sumarizace

(26)

”Dolován´ı v textech lze definovat jako proces objevován´ı (z´ıskáván´ı) znalost´ı, kter ý má za c´ıl identifikovat a analyzovat uˇziteˇcné informace v textech, jeˇz jsou zaj´ımavé pro uˇzivatele. Dolován´ı v textech lze také definovat jako netriviáln´ı extrakci implicitn´ıch, pˇredem neznám ých a potencionálnˇe uˇziteˇcn ých informac´ı z (velkého mnoˇzstv´ı) tex-tov ých dat. Pˇredem neznám ými informacemi jsou myˇsleny informace, které znal autor dokumentu, a které nejsou implicitnˇe viditelné. Nalezen´ı zcela nov ých informac´ı je velmi obt´ıˇzn ý úkol, kter ý se ˇcasto realizuje v souborech text ˚u, kde se analyzuj´ı vzájemné vazby a souvislosti.“ Jak je pˇeknˇe uvedeno v [7].

Text Mining m ˚uˇzeme rozdˇelit na dvˇe ˇc´asti:

1. Pˇredzpracován´ı textu - pˇr´ıprava textu do formy, se kterou se provád´ı dalˇs´ı zpra-cován´ı.

2. Z´ıskáván´ı znalost´ı - vzor ˚u - v této ˇcásti se odvozuj´ı vzory z pˇred pˇripraveného textu. Docház´ı k anal ýze vygenerovan ých term ˚u a k rozhodovac´ımu procesu ve-douc´ımu k poskytnut´ı poˇzadovan ých v ýsledk ˚u (zaˇrazen´ı dokumentu do kate-gorie).

4.2.1 Pˇredzpracov ´an´ı textu

D ˚uleˇzit ým krokem, kter ý pˇredcház´ı dolován´ı dat, je pˇr´ıprava tˇechto dat. Pˇri pˇredzpracován´ı je vstupn´ı dokument pˇrevádˇen do urˇcité podoby - do odpov´ıdaj´ıc´ıho formátu. S touto podobou se provád´ı dalˇs´ı zpracován´ı. Ze vstupn´ıch dat je extrahován pouze text. Jsou odstranˇeny obrázky nebo informace, které se net ýkaj´ı textu. Text je pˇreveden na stejn ý druh p´ısma. Co je zachováno je textová struktura textu. Tato struktura m ˚uˇze pomoci k urˇcen´ı v ýznamu term ˚u. Term je ustálen ý celek v dokumentu(základn´ı ob-jekt, s nimˇz se provád´ı dalˇs´ı zpracován´ı). Term se skládá z jednotliv ých slov, nebo v´ıce fráz´ı spolu s urˇcen´ım slovn´ıho druhu. V ýbˇer termu m ˚uˇze b ýt ruˇcn´ı, nebo automatizo-van ý. Dále jsou z textu vyjmuta slova, která nenesou ˇzádn ý v ýznam. Vektor term ˚u m ˚uˇze b ýt velice velk ý, a proto se aplikuj´ı metody, které umoˇz ˇnuj´ı sn´ıˇzit velikost na pˇrijatelnou mez. [9],[11],[10], [7].

Metody pˇredzpracov´an´ı textu

• Pˇrevod na malá nebo velká p´ısmena: Vˇsechny znaky v textu jsou pˇrevedeny na malá, nebo velká p´ısmena. Ve svoj´ı práci text pˇrevád´ım na malá p´ısmena. T´ımto se zbav´ım rozd´ılu mezi slovem, které je napsané velk ým p´ısmem respektive mal ým. [13].

(27)

• Odstranˇen´ı diakritiky: Vˇsechny znaky v textu projdou odstranˇen´ım inter-punkˇcn´ıch znam´enek. Anal ´yza textu se t´ım zase o nˇeco zlepˇs´ı. [13].

• Stemming: Pˇrevod slova do základn´ıho tvaru je velmi ˇcasto pouˇz´ıvaná technika [13]. Smyslem stemmingu je sjednocen´ı slov se stejn ým v ýznamem, ale jin ým tvarem. Jako pˇr´ıklad m ˚uˇzou slouˇzit anglické tvary slov looks, looking a looked, které po úpravˇe maj´ı tvar look. V ˇceˇstinˇe napˇr´ıklad slovo program má tvary programován´ı nebo programy. Tato technika dokáˇze sn´ıˇzit v ýslednou velikost vektoru. Pro an-glicky psané texty se pouˇz´ıvá algoritmus8_{, kter ý byl napsán Martinem F. Porterem} v roce 1979. Tento algoritmus vyuˇz´ıvá pouze odstra ˇnován´ı pˇr´ıpon. U pˇredpon se pˇredpokládá, ˇze jich v angliˇctinˇe nen´ı tolik a nejsou tak ˇcasto pouˇzity. Pro ˇceˇstinu se pouˇz´ıvá napˇr´ıklad morfologick ý analyzátor Ajka v´ıce v[12].

• Stop list: Je to seznam zakázan ých slov, která nechceme zahrnout do anal ýzy. Pouˇz´ıvá se pˇredevˇs´ım pro odstranˇen´ı slov, která nemaj´ı ˇzádn ý v ýznam. Jsou to napˇr´ıklad a, nebo, neˇz, aniˇz, tˇreba a mnoho dalˇs´ıch. Tyto slova jsou manuálnˇe nashromáˇzdˇená. Jiná moˇznost neˇz stop list je vypustit urˇcit ý poˇcet (napˇr. 100, 200, 300) nejfrekventovanˇejˇs´ıch slov v daném jazyce. Dále je nutné odstranit slova, která jsou obsaˇzena ve velkém mnoˇzstv´ı dokument ˚u (pak je v ýznam tˇechto slov nulov ý). • Odstranˇen´ı dalˇs´ıch informac´ı: Takové informace obvykle nese www dokument.

Jsou to HTML znaˇcky, skripty a jin´e. Tyto znaˇcky nechceme do anal ´yzy zaˇclenit. • Ohodnocen´ı slov: Nejpouˇz´ıvanˇejˇs´ım zp ˚usobem reprezentace dokumentu je pouˇzit´ı

vektoru, kter ý má tolik sloˇzek, kolik je slov v souboru dokument ˚u. Jednotlivé doku-menty b ývaj´ı reprezentovány ˇr´ıdk ými vektory o tis´ıc´ıch hodnot. V´ıce o ohodnocen´ı jsem zm´ınil v kapitole 3.2.

4.2.2 Klasifikace dokument ˚u

Klasifikace dokument ˚u je proces, slouˇz´ıc´ı k vytvoˇren´ı modelu, pro pˇriˇrazován´ı nebo ro-zliˇsován´ı objekt ˚u do pˇredem znám ých tˇr´ıd na základˇe jejich vlastnost´ı. V procesu Text Mining se kategorizace pouˇz´ıvá pro hledán´ı správn ých témat pro kaˇzd ý dokument. Dokument m ˚uˇze b ýt zaˇrazen podle obsahu, názvu, autora apod. Kaˇzd ý dokument m ˚uˇze b ýt v nˇekolika, jedné nebo ˇzádné tˇr´ıdˇe. Kategorizace se uplatn´ı v aplikac´ıch indexován´ı, ˇrazen´ı, filtrován´ı ˇci organizován´ı textu nebo tˇr´ıdˇen´ı webov ých stránek nebo odhalován´ı spamu. Kategorizace dokumentu je pouˇz´ıvaná jiˇz od 60. let minulého stolet´ı. Aˇz do konce

(28)

80. let se klasifikaˇcn´ı pravidla vytváˇrela ruˇcnˇe. Poté byly vyvinuty systémy, které na základˇe jiˇz zaˇrazen ých dokument ˚u dokázaly tyto pravidla vytvoˇrit automaticky.

Klasifikace textov ých dokument ˚u patˇr´ı do problému strojového uˇcen´ı. C´ılem je auto-maticky pˇriˇradit textov ý dokument do nˇejaké kategorie v závislosti na jeho obsahu. Pro kategorizaci lze pouˇz´ıt obecnˇe známé problémy jako jsou rozhodovac´ı stromy, induktivn´ı logické programován´ı (ILP), asociaˇcn´ı pravidla, Bayesova klasifikace, k-NN a jiné.

Pro klasifikaˇcn´ı algoritmy, je tˇreba textov ý dokument reprezentovat jako vektor, kde kaˇzdá sloˇzka reprezentuje frekvenci slova ˇci termu. Klasifikaci m ˚uˇzeme rozdˇelit do dvou fáz´ı. V prvn´ı fázi na základˇe trénovac´ıch vzor ˚u (u nichˇz v´ıme, do jaké skupiny patˇr´ı) urˇc´ıme pravidla, podle nichˇz bude klasifikace provádˇena. Ve druhé fázi jsou pravidla z´ıskaná v pˇredchoz´ım kroku testována na jin ých vzorech, následnˇe pouˇzita pro zaˇrazován´ı nov ých dat. V´ıce o klasifikaci dokument ˚u napˇr´ıklad zde: [15].

4.2.3 Shlukov ´an´ı

´

Ukolem shlukován´ı je nalézt shluky tak, aby platilo: dokumenty uvnitˇr shluku jsou si nejv´ıce podobné, a aby jejich podobnost s dokumenty z jin ých shluk ˚u byla menˇs´ı. Pomoc´ı shlukován´ı m ˚uˇzeme zjistit témata, která se vyskytuj´ı ve zkoumané mnoˇzinˇe dokument ˚u. Na rozd´ıl od klasifikace neznáme jednotlivé skupiny. [16],[11].

Kvalita shlukován´ı je úmˇerná schopnostem porovnat odliˇsnosti jednotliv ých ob-jekt ˚u. Je d ˚uleˇzité vybrat vhodné vstupn´ı parametry. Vycház´ı se z toho, ˇze um´ıme mˇeˇrit vzdálenosti mezi objekty. Následuje definice shluku.

Definice 4.2 Mˇejme mnoˇzinu objekt ˚u O = O1, . . . , On a m´ıru vzd´alenosti objekt ˚u V. Shlukem nazveme takovou podmnoˇzinu X ∈ O, pro niˇz plat´ı

max(V (Oi, Oj)) < min(V (Ok, Oi)), Oi, Oj ∈ X, Ok ∈ X/

Kapitolu o shlukován´ı jsem uvedl, protoˇze bych ho v budoucnu mohl pouˇz´ıt pro shlukován´ı webov ých stránek. Pokud bych kolekci r ˚uzn ých webov ých stránek pop-sal pomoc´ı vektorového modelu. U kaˇzdého dokumentu provedu ohodnocen´ı term ˚u metodou (TFIDF). Pak m ˚uˇzu spustit shlukován´ı. Ideáln´ım v ýsledkem bude nˇejak ý poˇcet shluk ˚u, kde kaˇzd ý shluk odpov´ıdá jedné doménˇe. Pro shlukován´ı bych vybral algorit-mus (Hierarchick ý), kter ý mnoˇzinu stránek postupnˇe rozdˇel´ı do k shluk ˚u.

Následuj´ıc´ı vzorce a text pro v ýpoˇcet vzdálenosti jsem si vyp ˚ujˇcil z [17]. ”Pˇredpokládejme, ˇze kaˇzd ý pˇr´ıklad je charakterizován m numerick ými veliˇcinami. Vzdálenost mezi dvˇema pˇr´ıklady x1 = [x11, . . . , x1m] a x2 = [x21, . . . , x2m] lze vyjádˇrit r ˚uzn ými m´ırami. Napˇr.:

(29)

• Hammingova vzdálenost dH(x1, x2) = m X j=1 |x1j − x2j| • Euklidovskou vzdálenost dE(x1, x2) = v u u t m X j=1 (x1j− x2j)2 • ˇCebyˇsova vzdálenost dC(x1, x2) = maxj|x1j− x2j|

Ve vˇsech v ýˇse uveden ých pˇr´ıpadech se jedná o speciáln´ı pˇr´ıklady Minkovského metriky L(z)(x1, x2) = z v u u t m X j=1 (x1j − x2j)z dH(x1, x2) = L(1)(x1, x2), dE(x1, x2) = L(2)(x1, x2), dC(x1, x2) = lim z→∞L (z)_(x 1, x2) V ýˇse uvedené m´ıry vzdálenosti závis´ı na mˇeˇr´ıtku veliˇcin. Proto je tˇreba veliˇciny normovat. Konkrétn´ı hodnota se obvykle dˇel´ı nˇejakou jinou hodnotou: pr ˚umˇerem, smˇerodatnou odchylkou nebo rozpˇet´ım (max-min). Nav´ıc pˇredpokládaj´ı stejn ý rozptyl u vˇsech veliˇcin. V pˇr´ıpadˇe r ˚uzného rozptylu se doporuˇcuje pouˇz´ıt Mahalanobisovu vzdálenost, která je zobecnˇen´ım vzdálenosti euklidovské.“ Citováno z [17].

d_M2(x1, x2) = (x1− x2)TS−1(x1− x2)

Na z´avˇer uvedu jeden z nejpouˇz´ıvanˇejˇs´ıch vzorc ˚u pro mˇeˇren´ı podobnosti dokument ˚u -Kosinov´a m´ıra. Sim(x1, x2) = n P i=1 (x1i· x2i) s n P i=1 (x1i)2· n P i=1 (x2i)2

4.2.4 Metody shlukov ´an´ı

Shlukován´ı nespadá do jednoho oboru, ale spadá do v´ıce oblast´ı, je to napˇr´ıklad matem-atika, statistika, numerická anal ýza ˇci umˇelá inteligence. Následuje pˇrehled metod pro shlukován´ı pˇrevzat ý z [18].

(30)

– Aglomerativn´ı algoritmy – Rozdˇelovac´ı algoritmy • Rozdˇelovac´ı metody – Pravdˇepodobnostn´ı shlukov´an´ı – k-medoids metody – k-means metody

• Algoritmy zaloˇzené na hustotˇe prvk ˚u • Metody zaloˇzené na mˇr´ıˇzkách

• Jiné metody (Napˇr.: metody pro mnohorozmˇerná data, r ˚uzné metody zaloˇzené na strojovém uˇcen´ı nebo metody vyuˇz´ıvaj´ıc´ı neuronové s´ıtˇe).

4.3 Web Mining

Web mining je technika, která vyuˇz´ıvá metod Data Miningu, pro objevován´ı vzor ˚u na webov ých stránkách (hledá a analyzuje uˇziteˇcné informace). Na Web Mining by se dalo pohl´ıˇzet jako rozˇs´ıˇren´ı Data Minigu s t´ım rozd´ılem, ˇze se pouˇz´ıvá pro data z webu. Hlavn´ım úkolem Web Miningu je klasifikace webového dokumentu. Web mining se dˇel´ı na tˇri skupiny, které objasn´ım v následuj´ıc´ıch kapitolách [26], [27].

4.3.1 Web content mining

Jeden z c´ıl ˚u web content miningu je analyzovat webové stránky a zjistit, které uˇziteˇcné informace jsou na nich obsaˇzeny. Uˇziteˇcné informace z pohledu uˇzivatele (text, odkazy, obrázky, zvuk, video). Nˇekdy je oznaˇcován jako text mining, protoˇze se vˇetˇsinou zab ývá zpracován´ım textu. V´ıce o pouˇzit´ı v [27]. Web content mining se dá rozdˇelit na dvˇe oblasti:

• Information Retrieval - úˇcelem je z´ıskat uˇziteˇcné informace, pomoc´ı kter ých nalezneme relevantn´ı webové stránky na internetu.

• Extrakce informac´ı - úˇcelem je zjistit informace o struktuˇre, které mohou b ýt uloˇzeny v databázi (napˇr. název, cena a term´ın zájezdu).

Podle publikace [23] pro oblast web mining je vhodné pouˇz´ıt webové návrhové vzory. Vzory se pouˇz´ıvaj´ı odliˇsn ým zp ˚usobem neˇz obvykle (podle vzoru programátor napro-gramuje poˇzadovanou akci - stále se opakuj´ıc´ı). V publikaci [23] byla vybrána sada

(31)

návrhov ých vzor ˚u, které se vyskytuj´ı na skuteˇcn ých stránkách (tyto návrhové vzory jsou vn´ımány uˇzivatelem). Návrhové vzory jsou pak pouˇzity pro popis charakteru webové stránky (na diskusn´ım f óru se vyskytuje vzor pˇrihláˇsen´ı, pˇr´ıspˇevky a vloˇzen´ı nového pˇr´ıspˇevku). Pro tento úˇcel musel b ýt vytvoˇren katalog tˇechto vzor ˚u9_{. C´ılem pouˇzit´ı} návrhov ých vzor ˚u je popis webové stránky a poté tento popis opakovanˇe pouˇz´ıvat pro jiné úkoly. Vlastnosti návrhového vzoru: je málo závisl ý na implementaci, je závisl ý na vn´ımán´ı uˇzivatele, prvky jedné konkrétn´ı instance vzoru jsou na stránce pohromadˇe. Pro extrakci návrhového vzoru jsou pouˇzity tzv. Gestalt principy pro vizuáln´ı systémy. Byly vybrány 4 nejvhodnˇejˇs´ı pravidla zaloˇzená na Gestalt principech. Jsou to:

1. Proximity (bl´ızkost) - souvisej´ıc´ı informace b ´yvaj´ı bl´ızko u sebe.

2. Similarity (podobnost) - podobnˇe vypadaj´ıc´ı prvky obsahuj´ı podobné informace 3. Continuity (souvislost) - informace následuj´ı plynule za sebou a dopl ˇnuj´ı se. 4. Closure (celek) - souvisej´ıc´ı informace b ývaj´ı spoleˇcnˇe uzavˇreny do celk ˚u.

Metodika moj´ı práce je obdobná jako metodika uvedená v práci [23].

4.3.2 Web structure mining

Web structure mining se zab ývá strukturou hypertextov ých odkaz ˚u v rámci webu (struktura webu). Anal ýza hyperlink ˚u je stará oblast v ýzkumu, ale s rostouc´ım zájmem o dolován´ı dat z webu se zv ýˇsilo úsil´ı a vy ústilo v novou oblast tzv. Link Mining. Web obsahuje ˇradu objekt ˚u s témˇeˇr ˇzádnou jednot´ıc´ı strukturou, rozd´ıly ve v ývojovém stylu a obsahu jsou mnohem vˇetˇs´ı neˇz v tradiˇcn´ıch knihovnách, proto se analyzuje vzájemné propojen´ı WWW stránek. Objekty WWW jsou webové stránky a odkazy. Úkoly link miningu:

• Link - klasifikace. Úkolem je zamˇeˇrit se na pˇredpovˇed’ kategorie dokumentu, na základˇe slov které se objevuj´ı v dokumentu, vazby mezi stránkami, html tagy a dalˇs´ı moˇzné atributy.

• Link - shlukován´ı. C´ılem je naj´ıt pˇrirozenˇe se vyskytuj´ıc´ı pod-tˇr´ıdy. Dokumenty se rozdˇeluj´ı do skupin, kde podobné dokumenty jsou pohromadˇe a odliˇsné v r ˚uzn ých skupinách.

• Link - typ. Existuje ˇsiroké spektrum úkol ˚u t ýkaj´ıc´ıch se predikce existence vazeb (predikce typu spojen´ı dvou dokument ˚u nebo úˇcel spojen´ı).

(32)

• Link - váha. Odkazy mohou b ýt ohodnoceny - váˇzen´ı odkaz ˚u.

• Link - mohutnost. Pˇredpovˇed’ kolik vazeb je mezi dokumenty(transformace WWW do orientovan´eho grafu).

C´ılem je vytvoˇren´ı modelu organizace Webu. Pomáhá zdokonalovat vyhledávac´ı roboty (page rank - d ˚uleˇzitost stránky se zvyˇsuje t´ım v´ıc, ˇc´ım v´ıc se na ni odkazuje jin ých rele-vantn´ıch stránek) [24].

4.3.3 Web usage mining

Web usage mining se zamˇeˇruje na vyuˇzit´ı techniky, která by mohla pˇredpov´ıdat chován´ı uˇzivatel ˚u, zat´ımco pouˇz´ıvaj´ı WWW. Web usage mining je zaloˇzen na sb´ırán´ı dat z logo-vac´ıch záznam ˚u a z nich vytvoˇren´ı nov ých vzor ˚u chován´ı uˇzivatele. Chován´ı uˇzivatel ˚u m ˚uˇze objevit nové vazby a závislosti (odvozen´ı vazeb tam kde nebyly dosud navrˇzeny nebo tam kde jsou chybné). Problémy t ýkaj´ıc´ı se web usage miningu:

1. Pˇredzpracován´ı - dostupné údaje obsahuj´ı ˇsum, jsou nekonzistentn´ı a ne úplné. ˇ

Ciˇstˇen´ı, integrace, transformace a redukce dat.

2. Objeven´ı vzoru - nˇekolik r ˚uzn ých metod a algoritm ˚u (statistika, data mining, stro-jové uˇcen´ı a rozpoznán´ı vzor ˚u) by mohly b ýt pouˇzity na identifikaci vzoru chován´ı uˇzivatele.

3. Anal ´yza vzoru - pochopen´ı, vizualizace a v ´yklad.

S pouˇzit´ım web usage miningu souvis´ı ochrana osobn´ıch ´udaj ˚u. V´ıce o usage miningu v [25].

(33)

5 Vlastn´ı metoda ˇre ˇsen´ı

5.1 Metodika sb ˇeru dat

Abych mohl vytvoˇrit vlastn´ı aplikaci, která dokáˇze automaticky detekovat vzory, musel jsem sesb´ırat informace o doménách. Takové informace jsem nalezl na stránkách, které se t ýkaj´ı stejného tématu. Stránky je nutné uloˇzit a d ˚ukladnˇe prozkoumat. Na doménˇe nezáleˇz´ı, aplikace mus´ı b ýt schopna vyhledávat vˇsechny druhy stránek. Pro sbˇer dat jsem pouˇzil aplikaci Internet Explorer. Pomoc´ı internetového vyhledávaˇce Google.cz jsem vyhledal jen ˇceské internetové stránky. Anglicky psané stránky mˇe pro tuto chv´ıli nezaj´ımaj´ı. Pro anglicky psané stránky budou fungovat stejné algoritmy, ale jiné kon-figuraˇcn´ı soubory. Pro vytvoˇren´ı konkon-figuraˇcn´ıho souboru mus´ım analyzovat co moˇzná nejvˇetˇs´ı poˇcet HTML soubor ˚u. Existuj´ı postupy pro automatické z´ıskáván´ı tˇechto kon-figuraˇcn´ıch soubor ˚u (tzv. strojové uˇcen´ı). Aplikace se dokáˇze uˇcit nov ým poznatk ˚um, které nejsou explicitnˇe definovány. Tento postup nen´ı pˇr´ıliˇs vhodn ý pro tento typ úlohy, protoˇze vˇetˇsina automatick ých zp ˚usob ˚u indexován´ı je zaloˇzena na pozorován´ı, ˇze v ýznamnost kl´ıˇcov ých slov pro indexaci pˇr´ımo souvis´ı s frekvenc´ı v ýskytu kl´ıˇcového slova (term) v dokumentu. Pro moje potˇreby nepotˇrebuji frekvenci jednotliv ých slov, ale frekvenci blok ˚u sestaven ých ze slov a to vyˇzaduje lidsk ý cit. Dalˇs´ı nev ýhoda strojového uˇcen´ı je velk ý objem trénovac´ıch dat. Z tohoto d ˚uvodu se pˇriklán´ım k ruˇcn´ımu sestaven´ı konfiguraˇcn´ıch dat. Stránky, které budu analyzovat jsem vybral na základˇe velikosti rel-evance k dotazu. Vˇsechny postupy pro sbˇer dat jsem popsal v nˇekolika kroc´ıch:

1. V prvn´ım kroku jsem si vybral doménu, na které budu provádˇet pokusy. Konkrétnˇe jsem si nevybral jen jednu, ale v´ıce. Jsou to tyto domény: Dovolená, Technické údaje, Diskusn´ı f órum. Postup pˇri sbˇeru dat budu demonstrovat pouze na doménˇe dovolená. Pro ostatn´ı domény se postup neliˇs´ı.

2. Pro sbˇer trénovac´ıch dat jsem si vybral aplikaci Internet Explorer verze 8. Spust´ım IE a zadám adresu http://www.google.cz. Jako kl´ıˇcové slovo pro vyhledán´ı jsem zadal ”dovolená”a stisknu tlaˇc´ıtko hledat.V tomto kroku mi google naˇsel pˇribliˇznˇe 12 000 000 v ýsledk ˚u za 0,06s. V dalˇs´ım kroku zakliknu stránky pouze ˇcesky. V této fázi google naˇsel pˇribliˇznˇe 13 100 000 v ýsledk ˚u za 0,11s.

3. Ve tˇret´ım kroku zaˇcnu procházet seznam stránek, které google vyhledal a jsou seˇrazeny podle m´ıry relevance k dotazu (v tomto pˇr´ıpadˇe je dotaz dovolená). Pos-tupnˇe otv´ırám kaˇzdou stránku. Prohlédnu si ji, a pokud odpov´ıdá dotazu, uloˇz´ım si ji na disk.

(34)

4. V pˇredchoz´ım kroku jsem naˇsel vyhovuj´ıc´ı www stránku. Tuto stránku uloˇz´ım na disk klasick ým zp ˚usobem. Pˇri ukládán´ı nastavuji dva parametry. Prvn´ı parametr je Uloˇzit jako typ. Pro moje potˇreby jsem zvolil uloˇzen´ı Webová stránka, pouze HTML, tedy kaˇzdou stránku uloˇz´ım tak, aby obsahovala html znaˇcky a vˇsechen text. Nic v´ıc pro potˇreby anal ýzy nepotˇrebuji. Druh ý parametr, kter ý nastavuji je kódován´ı. Zde si m ˚uˇzu vybrat z nˇekolika jazyk ˚u. Pro moje potˇreby a potˇreby aplikace si stránky ukládám do k ódován´ı Stˇredoevropské jazyky (Windows).

5. Postupnˇe opakuji krok 3 a 4 tak dlouho, aˇz budu m´ıt uloˇzen ých nejménˇe 20 stránek. T´ımto krokem sbˇer dat konˇc´ı a pˇrecház´ım ke kapitole 5.2, kde budu stránky ruˇcnˇe procházet a zaznamenávat si z mého pohledu uˇziteˇcné informace.

5.2 Metodika anal ´yzy dat

V kapitole 5.1 jsem popsal postup pˇri sbˇeru dat. T´ımto mám shromáˇzdˇena potˇrebná data a na nich provedu anal ýzu. Anal ýzou rozum´ım ruˇcn´ı procházen´ı jednotliv ých soubor ˚u a zaznamenáván´ı uˇziteˇcn ých informac´ı. Taková informace m ˚uˇze b ýt:

1. Titulek stránky - v titulku se nacház´ı informace o stránce (napˇr. dovolená, zájezd atd.) tato informace mi pom ˚uˇze úspˇeˇsnˇe detekovat stránku o dovolené.

2. Frekvence slov - frekvence slov je velice d ˚uleˇzitá. Napomáhá nám rozeznat jaké termy jsou uˇziteˇcné pro anal ýzu respektive neuˇziteˇcné. Termy, které se na stránkách vyskytuj´ı ˇcasto, jsou uˇziteˇcné - vyskytuj´ı se v urˇcité doménˇe s velkou frekvenc´ı a tak popisuj´ı tuto doménu. Na druhé stranˇe jsou termy, které se nevyskytuj´ı pˇr´ıliˇs ˇcasto a tedy nemaj´ı pro mˇe ˇzádn ý uˇziteˇcn ý v ýznam. Nˇekde uprostˇred jsou termy, které se nevyskytuj´ı pˇr´ıliˇs ˇcasto, ale jejich v ýskyt nen´ı zanedbateln ý. Tyto termy jsou nejv´ıce problematické. Tento problematick ý term m ˚uˇze zv ýˇsit relevanci nebo naopak sn´ıˇzit. To zjist´ıme aˇz pˇri testován´ı aplikace v praxi. Problematiku v ýbˇeru kl´ıˇcov ých slov (dále jen KS) pˇribl´ıˇz´ım na pˇr´ıkladu.

Existuj´ı ˇctyˇri dokumenty, kaˇzd ý dokument obsahuje urˇcitá KS. Dokumenty také m ˚uˇzu chápat jako úsek textu (tzv. segment). Z tabulky 1 je patrné, ˇze KS a je obsaˇzeno ve vˇsech dokumentech a tedy je z pohledu rozliˇsen´ı dokument ˚u bezv ýznamné. Ostatn´ı KS nejsou obsaˇzena ve vˇsech dokumentech, a proto nám pˇribliˇzuj´ı resp. oddaluj´ı dokumenty. KS b a d obsahuj´ı dokumenty D1 a D2 a tedy jsou si podobné. Obdobnˇe KS f a c obsahuj´ı dokumenty D3 a D4. Pokud takto zvol´ıme kl´ıˇcová slova a následnˇe poloˇz´ıme dotaz nad mnoˇzinou dokumentu D1-D4. V ýsledkem bude skupina S1 respektive S2. Viz tabulka 2.

(35)

Dokument Kl´ıˇcov´a slova

D1 a,b,d

D2 a,b,r,d

D3 a,c,f

D4 a,f,c,z

Tabulka 1: Kl´ıˇcov´a slova

Skupina Dokumenty Kl´ıˇcov´a slova dotazu

S1 D1,D2 b,d

S2 D3,D4 c,f

Tabulka 2: Skupiny dokument ˚u

3. Návrhové vzory vyskytuj´ıc´ı se na stránce - na pohled rozd´ılné, vykonávaj´ı stej-nou ˇcinnost. Návrhov ý vzor je ukryt ý v bloku textu. Tento text nazvu jako seg-ment. Na stránkách si vˇs´ımám segment ˚u, o kter ých si mysl´ım ˇze by se mohly vyskytovat hlavnˇe na stránkách o daném tématu. Tyto segmenty textu se ˇcasto opakuj´ı na dané doménˇe. Tento text je v nˇejaké grafické podobˇe napˇr´ıklad tab-ulka nebo seznam. Jakmile zaznamenám segmenty a jejich frekvenci (oznaˇc´ım Sf) ze vˇsech stránek z kolekce ”Dovolená”, mohu vybrat kl´ıˇcové segmenty. Pro kaˇzd ý segment stanov´ım jeho IDF (inverzn´ı frekvence segmentu) podle vzorce IDF (segment) = m/F s, kde m je celkov ý poˇcet dokument ˚u v kolekci a F s je poˇcet dokument ˚u, ve kter ých se vyskytuje segment. Protoˇze kolekce dokument ˚u ob-sahuje jen kladné stránky, budu inverzn´ı funkci chápat opaˇcn ým zp ˚usobem. Pokud se na vˇsech stránkách bude vyskytovat segment, bude se IDF rovnat log(1) = 0. V takovém pˇr´ıpadˇe je segment jasn ým favoritem. V opaˇcném pˇr´ıpadˇe, pokud se segment vyskytuje jen na jedné stránce log(20) = 1, 3, nebude pro mˇe d ˚uleˇzit ý. Vyberu takové segmenty, pro které plat´ı IDF < hladina významnosti.

Tuto problematiku pˇribl´ıˇz´ım na pˇr´ıkladu z domény dovolená. Na tˇechto stránkách se ˇcasto vyskytuje vzor Nab´ıdka dovolené. Je to úsek textu, kde se vyskytuj´ı slova: destinace (stát), term´ın dovolené (datum), délka dovolené (poˇcet dn´ı), cena. Tyto slova jsou bl´ızko u sebe. Tˇechto úsek ˚u (návrhov ých vzor ˚u) se na stránce vyskytuje obvykle v´ıce. Zaznamenáván´ım si vytvoˇr´ım seznam návrhov ých vzor ˚u, které na stránkách budu detekovat. U kaˇzdého návrhového vzoru si zaznamenávám kl´ıˇcová slova. Pˇri v ýbˇeru KS pouˇz´ıvám techniku popsanou v bodˇe 3 s t´ım rozd´ılem, ˇze nerozliˇsuji

(36)

dokumenty, ale úseky (bloky) textu. Následuj´ıc´ı pˇr´ıklad popisuje návrhov ý vzor Nab´ıdka dovolené. Pro jednoduchost jsem uvedl jen tˇri bloky. Data jsem pˇrevzal ze stránky Bezva-dovolena.htm, kde se tento blok opakuje 33 krát. Viz tabulka 3.

Blok Text

B1 term´ın, 14.12.-21.12.2010, 7 dn´ı, Strava, Polopenze, Cena, 11 130,-Kˇc B2 term´ın, 18.10.-26.10.2011, 8 dn´ı, Strava, Sn´ıdanˇe, Cena, 33 990,-Kˇc,

(+2500 Kˇc taxy),koneˇcn´a, cena, vˇc. poplatk ˚u, 36 490,-Kˇc B3 18.01.-25.01.2011 - 7 dn´ı, Strava, All Inclusive, Cena, 15670,-Kˇc

Tabulka 3: Text v bloku

Anal ýzou tˇechto kl´ıˇcov ých slov jsem vytvoˇril mnoˇzinu popisuj´ıc´ı návrhov ý vzor Nab´ıdka dovolené. Viz tabulka 4.

Blok Kl´ıˇcov´a slova

B1 <datum>, <malé ˇc´ıslo>, <cena>, dn´ı, polopenze B2 <datum>, <malé ˇc´ıslo>, <cena>, dn´ı, sn´ıdanˇe B3 <datum>, <malé ˇc´ıslo>, <cena>, dn ˚u

Tabulka 4: Kl´ıˇcov´a slova v bloku

Popis tabulky 4:

KS <datum> je datov ´y typ, kter ´y reprezentuje vˇsechny datumy (napˇr. 14.12., 18.10.-26.10.2011, 13. ledna 2000).

KS <malé ˇc´ıslo> je datov ý typ, kter ý reprezentuje vˇsechny ˇc´ısla, které obsahuj´ı maximálnˇe dvˇe cifry (napˇr. 2, 5, 76).

KS <cena> je datov ´y typ, kter ´y reprezentuje vˇsechny ceny (napˇr. 11130,-Kˇc, 15670,-, 11000Kˇc).

Sjednocen´ım kl´ıˇcov ých slov z bloku B1-B3 nám vznikne mnoˇzina obsahuj´ıc´ı tato slova: datum, malé ˇc´ıslo, cena, dn´ı, polopenze, sn´ıdanˇe. Tato mnoˇzina nám reprezentuje návrhov ý vzor Nab´ıdka dovolené. Jak je patrné KS All Inclusive se v mnoˇzinˇe nevyskytuje, protoˇze se na stránce vyskytuje i na jin ých m´ıstech. Jeho zaˇrazen´ı mezi KS by v nˇekter ých pˇr´ıpadech znamenalo pˇribl´ıˇzen´ı blok ˚u textu, které nemaj´ı nic spoleˇcného. Bliˇzˇs´ı popis vˇsech datov ých typ ˚u bude uveden v kapitole 6. Poznámka: v praxi se nejedná pˇr´ımo o kl´ıˇcová slova, ale o jejich kmeny. Napˇr´ıklad u slov dn ˚u a dn´ı. Po odtrˇzen´ı koncovky ˚u od slova dn ˚u nám vznikne kmen dn a

(37)

stejnˇe tak u slova dn´ı po odtrˇzen´ı koncovky´ı nám vznikne kmen dn. Tedy jsou stejné. Koncovkou je to, co se mˇen´ı pˇri sklo ˇnován´ı nebo ˇcasován´ı. (Pˇr´ıklad: ve slovˇe pˇr´ıspˇevk/ ˚u, pˇr´ıspˇevk/y je spoleˇcn ý kmen pˇr´ıspˇevk). Tento jednoduch ý zp ˚usob je pˇrekvapivˇe úspˇeˇsn ý.

4. TAGy - v bodˇe 3 jsem z´ıskal slova, která popisuj´ı návrhov ý vzor. Návrhov ý vzor se obvykle vyskytuje v urˇcitém m´ıstˇe stránky a má nˇejakou grafickou podobu, která je znázornˇena uˇzivateli. Tuto pozici (m´ısto) popisuje HTML TAG. Pˇr´ıklad takového TAGu m ˚uˇze b ýt: table (tabulka), title (titulek), tr (ˇrádek tabulky), li (poloˇzka v seznamu), div (odd´ıl) nebo p (odstavec). Tˇechto HTML TAG ˚u je mnohem v´ıce. Pˇrehledn ý sez-nam vˇsech je na internetov ých stránkách10. U kaˇzdého segmentu si zaznamenám v jakém TAGu se vyskytuje. Tyto údaje vyuˇziji pro hledán´ı návrhového vzoru. Tento nápad vysvˇetl´ım. Pˇri vyhledán´ı návrhového vzoru nebudu procházet celou stránku (ta je sestavena z HTML TAG ˚u), ale budu procházet jen ty TAGy, ve kter ých se vyskytoval návrhov ý vzor.

Ruˇcn´ım zaznamenáván´ım jsem z´ıskal data, podle kter ých bude aplikace vyh-ledávat. Uloˇzen´ı a popis tˇechto dat bude v kapitole 5.3.

5.3 Nastaven´ı automatick ´e detekce

Nastaven´ı zapisuji do souboru XML. Soubor m ˚uˇze obsahovat libovoln ý poˇcet vzor ˚u. Jeden XML dokument popisuje jednu doménu. Postupnˇe budu vysvˇetlovat jednotlivé parametry. Jako pˇr´ıklad jsem zvolil doménu dovolená a návrhov ý vzor (segment) Nab´ıdka dovolené. Ve v ýpisu 1 neuvád´ım vˇsechny parametry. Kompletn´ı v ýpis uvedu v pˇr´ıloze B.

<_vzor>

<jmeno>Dovolen ´a</jmeno> <segment id = ”nabidka”>

<_{seg maxVelikost>3000</seg maxVelikost>} <seg minVelikost>15</seg minVelikost>

<seg minPocetNalezenych>3</seg minPocetNalezenych> <_{seg maxVzdalenostSlov>18</seg maxVzdalenostSlov>} <seg musiObsahovat>Tdatum</seg musiObsahovat> <seg musiObsahovat>Tcena</seg musiObsahovat> <seg slovo>dnu</seg slovo>

<_{seg slovo>snidane</seg slovo>} <seg slovo>bez</seg slovo>

(38)

<seg slovo>polopenze</seg slovo> <seg token>Tdatum</seg token> <_{seg token>Tcena</seg token>} <seg token>Tteplota</seg token> <seg tag>tr</seg tag>

<_{seg tag>a</seg tag>} <seg tag>ul</seg tag> </segment>

</vzor>

V ´ypis 1: Pˇr´ıklad XML

Popis parametr ˚u XML: Parametry oznaˇcené * jsou povinné parametry a jejich hod-nota mus´ı b ýt nastavena na pˇr´ıpustnou hodnotu.

• <jmeno>* = n´azev dom´eny

• <segment id = "nabidka">* = n´azev vzoru • <seg_hodnota>* = v´aha vzoru

• <seg_maxVelikost>* = maxim´aln´ı velikost textu ve znac´ıch • <seg_minVelikost>* = minim´aln´ı velikost textu ve znac´ıch

• <seg_minPocetNalezenych>* = minimáln´ı poˇcet kl´ıˇcov ých slov nalezen ých v textu potˇrebn ých pro rozpoznán´ı vzoru. Stejné slovo se zapoˇc´ıtá jenom jednou. • <seg_maxVzdalenostSlov>* = vzdálenost od prvn´ıho nalezeného slova do

posledn´ıho. Vzdálenost ve slovech. Pokud se jedná o vzor, kter ý se v textu m ˚uˇze vyskytnou v´ıcekrát, mus´ım hodnotu nastavit na kladné ˇc´ıslo (Viz kapitola 6.10.2). Pokud vyhledávám vzor, kter ý se v textu vyskytuje jedenkrát, hodnotu nastav´ım na -1 (Viz kapitola 6.10.1).

• <seg_musiObsahovat> = slovo, kter´e mus´ı vzor obsahovat vˇzdy. Tedy bez nˇeho vzor nebude nalezen. Toto slovo mus´ı b ´yt uvedeno i v <seg_slovo>.

• <seg_slovo>* = kl´ıˇcová slova, která mohou, ale nemusej´ı b ýt obsaˇzena. Tato slova jsou jedn´ım z nejd ˚uleˇzitˇejˇs´ım parametr ˚u. Jejich poˇcet nen´ı omezen.

• <seg_token>* = datov ý typ kter ý m ˚uˇze nebo nemus´ı b ýt obsaˇzen. Datové typy velice pomáhaj´ı pˇri anal ýze. Bez datov ých typ ˚u by vˇetˇsina vzor ˚u neˇsla efektivnˇe vyhledat. Poˇcet nen´ı omezen.