Data Mining and SQL Server 2008

(1)

Fakulta elektrotechniky a informatiky

Katedra informatiky

Data mining a SQL Server 2008

Data mining and SQL Server 2008

(2)

V Ostravˇe 16. dubna 2009 . . . .

Prohlaˇsuji, ˇze jsem tuto bakaláˇrskou práci vypracoval samostatnˇe. Uvedl jsem vˇsechny literárn´ı prameny a publikace, ze kter ých jsem ˇcerpal.

(3)

(4)

C´ılem této bakaláˇrské práce je obecné seznámen´ı s principy, funkcemi a vyuˇzit´ım do-lován´ı dat a jeho realizaci v SQL Serveru 2008. Prvn´ı ˇcást se zab ývá popisem integraˇcn´ıch sluˇzeb a metodikou uchováván´ı v´ıcerozmˇern ých dat. Druhá ˇcást popisuje teorii a imple-mentaci jednotliv ých pouˇz´ıvan ých metod. Tˇret´ı ˇcást se pak zamˇeˇruje na pouˇzit´ı tˇechto metod a porovnán´ı v ýhodnosti jejich aplikace na zadaná data.

Kl´ıˇcov á slova: Anal ýza dat, Dolován´ı dat, Business Intelligence, SQL Server 2008

Abstract

The goal of this bachelor project is to show the principles, functions and usage of data mining and its realisation in SQL Server 2008. The first part is concerned in description of integration services and way of saving multidimensional data. The second part describes theory and implementation of used functions. The third part is focused on using these methods in SQL Server 2008 Developer Edition, comparing its efficiency of its aplications on obtained data.

(5)

BI – Bussiness inteligence

CSV – Comma Separated Values

DM – Data Mining

DSS – Decision-Support Systems

EM – Estimation Maximization

EIS – Eecutive information system KDD – Knowledge Discovery in Databases

MIS – Management Information System

MS – Microsoft

OLAP – On-line Analytical Processing OLTP – On-line Transaction Processing

(6)

Obsah

1 Uvod´ 3

2 Business Intelligence v SQL Serveru 2008 4

2.1 Integrace dat v SQL serveru 2008 . . . 4

2.2 Proces hled´an´ı znalost´ı v datab´az´ıch . . . 7

2.3 Reportovac´ı sluˇzby . . . 8

3 Algoritmy pro dolov´an´ı dat v SQL Serveru 2008 9 3.1 Popis DM metod v SQL Serveru 2008 . . . 9

3.2 Moˇznosti nastaven´ı DM modelu . . . 9

3.3 Moˇznosti nastaven´ı parametr ˚u algoritm ˚u metod pro DM . . . 10

3.4 Metody vizualizace v ´ysledk ˚u anal ´yzy . . . 10

3.5 Asociaˇcn´ı metody . . . 10

3.6 Casov´e ˇrady . . . .ˇ 14 3.7 Shlukovac´ı metody . . . 17

3.8 Rozhodovac´ı stromy . . . 23

3.9 Naivn´ı Bayesova metoda . . . 26

3.10 Neuronov´e s´ıtˇe . . . 27

4 Experimenty s dolov´an´ım dat pomoc´ı SQL Serveru 2008 31 4.1 Tvorba integraˇcn´ıho projektu . . . 31

4.2 Testov´an´ı analytick ´ych sluˇzeb . . . 34

5 Z´avˇer 48

6 Reference 49

(7)

Seznam obr ´azk ˚

u

1 Sch´ema v´ıcevrstv´eho perceptronu . . . 28

2 Sch´ema hlavn´ıho integraˇcn´ıho projektu . . . 32

3 Diagram shluk ˚u (Cluster Diagram) . . . 35

4 Profily shluk ˚u (Cluster Profiles) . . . 36

5 Charakteristika shluk ˚u (Cluster Characteristics) . . . 37

6 Charakteristika shluk ˚u (Cluster Characteristics) po pouˇzit´ı algoritmu K-mean . . . 38

7 Bayesova metoda - profily atribut ˚u . . . 39

8 Asociaˇcn´ı pravidla - nalezen´a pravidla . . . 40

9 Asociaˇcn´ı pravidla - mnoˇzina nalezen ´ych prvk ˚u . . . 41

10 Asociaˇcn´ı pravidla - s´ıt’ z´avislost´ı informac´ı na akc´ıch . . . 42

11 Asociaˇcn´ı pravidla - s´ıt’ z´avislosti akc´ı na ˇcase . . . 43

12 Neuronov´e s´ıtˇe - pˇrehled preferenc´ı . . . 44

13 Logistick´a regrese - pˇrehled preferenc´ı . . . 45

14 Sekvenˇcn´ı shlukov´an´ı - profily shluk ˚u . . . 46

(8)

1 Uvod

´

Dolován´ı dat je v ýznamnou, ne-li nejv ýznamnˇejˇs´ı, sloˇzkou technologi´ı business intelli-gence. Tyto technologie slouˇz´ı pro pˇrevod surov ých historick ých dat firem na informace, pˇr´ıpadnˇe znalosti, které jsou snadno interpretovatelné. Na základˇe takto z´ıskan ých in-formac´ı je pak moˇzné optimalizovat firemn´ı procesy, marketingové kampanˇe, atd.

C´ılem mé práce bylo seznámit se s aplikac´ı integraˇcn´ıch a analytick ých sluˇzeb (tedy nástroji pro dolován´ı dat) technologie MS SQL Servr 2008 a provést experimenty s apli-kac´ı metod dolován´ı dat nad zadanou databázi.

V prvn´ı ˇcásti své práce se vˇenuji obecnému popisu business intelligence, integraˇcn´ım sluˇzbám a jejich vyuˇzit´ı a zp ˚usobu ukládán´ı vicerozmˇern ých dat.

Následuj´ıc´ı ˇcást je zamˇeˇrena na popis analytick ých sluˇzeb, které dává SQL Server 2008 k dispozici. V této ˇcásti se u popisu kaˇzdé metody nejprve vˇenuji popsán´ı princip ˚u jej´ıho zp ˚usobu anal ýzy a následuje popis toho, jak je konkrétnˇe metoda implementována v SQL Serveru 2008. Na závˇer popisu pak uvád´ım seznam parametr ˚u metody, které je moˇzno pouˇz´ıt pro jej´ı optimalizaci.

Posledn´ı kapitola obsahuje popis experiment ˚u s integraˇcn´ımi sluˇzbami a samotn ým dolován´ım dat. Experimenty byly provedeny nad souborem obsahuj´ıc´ım pˇrihlaˇsovac´ı data (logy) do systému Moodle, kter ý slouˇz´ı jako podpora pro e-learning. Pomoc´ı inte-graˇcn´ıch sluˇzeb tedy bylo potˇreba data ze souboru korektnˇe vybrat a uloˇzit je do databáze serveru. Následovala aplikace jednotliv ých analytick ých sluˇzeb na z´ıskanou databázi. Popisy experiment ˚u s metodami sestávaj´ı z uveden´ı vstupn´ıho nastaven´ı a konfigurace algoritmu testované metody, délky v ýpoˇctu, interpretace v ýsledku a vyhodnocen´ı efek-tivity (resp. informaˇcn´ıho pˇr´ınosu) metody.

V závˇeru shrnuji z´ıskané poznatky a zkuˇsenosti s nasazen´ım integraˇcn´ıch a aplikaˇcn´ıch sluˇzeb a své dojmy s prac´ı se systémem MS SQL Server 2008.

(9)

2 Business Intelligence v SQL Serveru 2008

Luboslav Lacko [3] definuje pojem Business Intelligence jako proces transformace dat na informace a následn ý pˇrevod tˇechto informac´ı na poznatky. Petr Berka [4] interpretuje v ýznam tohoto pojmu rovnic´ı:

business intelligence = artif icial intelligence + business.

Luminita Hurbean [15] popisuje BI podle jeho funkce, jako nástroj umoˇz ˇnuj´ıc´ı organi-zac´ım extrakci uˇziteˇcn ých informac´ı z rychle rostouc´ıho seznamu heterogenn´ıch zdroj ˚u dat, vˇcetnˇe r ˚uzn ých databázov ých platforem, datov ých sklad ˚u, datov ých trh ˚u a e-business sytém ˚u.

SQL Server 2008 disponuje v oblasti Business Intelligence nástroji pro integraci da-tov ých zdroj ˚u, anal ýzu dat a report v ýsledné anal ýzy.

2.1 Integrace dat v SQL serveru 2008

Integraˇcn´ı sluˇzby MS SQL Serveru 2008 poskytuj´ı nástroj pro sjednocen´ı heterogenn´ıch zdroj ˚u dat. M ˚uˇze j´ıt o klasické systémy relaˇcn´ıch databáz´ı r ˚uzn ých spoleˇcnost´ı (Oracle, IBM, Microsoft,...), XML databáze, textové soubory s hrub ými daty, podnikové systémy (napˇr. SAP) nebo soubory tabulkov ých procesor ˚u.

Integraˇcn´ı sluˇzby je moˇzno navrhovat jako jednorázov ý nebo periodicky se vykonávaj´ıc´ı proces (viz [3]). Druhá moˇznost se t ýká pˇredevˇs´ım kaˇzdodennˇe se aktualizuj´ıc´ıch da-tov ých sklad ˚u. Ve finále jsou data nahrána do zadaného druhu databáze.

2.1.1 Transak ˇcn´ı datab áze vs. Analytick é datab áze (OLAP)

Bˇeˇznˇe pouˇz´ıvané transakˇcn´ı databáze jsou urˇceny (a optimalizovány) pro provádˇen´ı nej-r ˚uznˇejˇs´ıch obchodn´ıch tnej-ransakc´ı. Tomuto úˇcelu je také uzp ˚usobena komplexnost a stnej-ruk- struk-tura údaj ˚u, které tyto databáze obsahuj´ı a na tomto poli dosahuj´ı vysok ých v ýkon ˚u. Pro provádˇen´ı nároˇcn ých anal ýz je vˇsak transakˇcn´ı model nevhodn ý. Pro komplexn´ı anal ýzy jsou podstatnˇe vhodnˇejˇs´ı multidimenzionáln´ı modely.

V ývoj pˇrechodu od transakˇcnˇe orientovan ých systém ˚u po analyticky orientované systémy mˇel nˇekolik fáz´ı [14].

• MIS - Vstupem tˇechto systém ˚u jsou data transakˇcn´ıch systém ˚u. MIS poskytovaly manaˇzer ˚um pravidelné strukturované zprávy, nicménˇe nebyly schopné asistovat manaˇzer ˚um v procesech rozhodován´ı.

• DSS - Systémy DSS (systémy pro podporu rozhodován´ı), jiˇz umoˇz ˇnuj´ı nasazen´ı do procesu strategického rozhodován´ı poskytován´ım v ýsledk ˚u komplexn´ıch anal ýz). • EIS - Tyto systémy jiˇz umoˇz ˇnily manaˇzer ˚um pˇr´ıstup k dotazován´ı databáz´ı -

uˇzi-vatelské rozhran´ı ”zakrylo”syntaxi SQL. Nev ýhodou vˇsak bylo omezen´ı sady ana-lytick ých metod na pˇredem pˇripravené ˇsablony. Sloˇzitˇejˇs´ı konstrukce proto bylo nutné opˇet vytváˇret pˇrevodem dotazu do jazyka SQL. EIS jsou jiˇz oznaˇcovány term´ınem Business Intelligence.

(10)

• OLAP - Souˇcasné systémy OLAP se oproti EIS vyznaˇcuj´ı intuitivn´ım ovládán´ım a uˇzivatelsky pˇr´ıvˇetivˇejˇs´ım rozhran´ım - mnohdy dávaj´ı k dispozici nástroje pro vi-zualizaci v ýsledk ˚u anal ýz. Definice tˇechto systém ˚u je volná, jde sp´ıˇse o systémy zaloˇzené na urˇcit ých principech. Pomˇernˇe dobˇre je charakterizuje 12 pravidel OLAP od Dr. Edgara Franka Codda (viz [3] - pro ponˇekud odliˇsná kritéria sytém ˚u OLAP viz [4])

1. Multidimenzionáln´ı konceptuáln´ı pohled - OLAP mus´ı nab´ızet multidimenzionáln´ı model odpov´ıdaj´ıc´ı potˇrebám.

2. Transparentnost - Architektura v ýpoˇct ˚u, podˇr´ızená databáze a technologie OLAP by mˇela pro b ýt uˇzivatele pˇrehledná a umoˇz ˇnovat mu snadné pouˇzit´ı front-end nástroj ˚u.

3. Dostupnost - Systém by mˇel pˇristupovat jen k dat ˚um, které jsou nutné pro pro-veden´ı anal ýzy.

4. Konzistentn´ı vykazován´ı - R ˚ust databáze by nemˇel znatelnˇe ovliv ˇnovat rychlost anal ýzy.

5. Architektura klient-server - Syst´em OLAP mus´ı pracovat na z´akladˇe architektury klient-server.

6. Generick´a dimenzionalita - Dimenze mus´ı b ´yt co do struktury a operaˇcn´ıch schop-nost´ı ekvivalentn´ı.

7. Dynamické oˇsetˇren´ı ˇr´ıdkých matic - OLAP by mˇel pˇrizp ˚usobovat své fyzické uspoˇrádán´ı konkrétn´ımu analytickému modelu, vˇcetnˇe optimalizace oˇsetˇren´ı ˇr´ıdk ých matic (viz Datové modely v OLAP).

8. Podpora pro v´ıce uˇzivatel ˚u - Syst´em mus´ı podporovat pr´aci v´ıce uˇzivatel ˚u na jednom modelu.

9. Neomezené kˇr´ıˇzové dimenzionáln´ı operace - Systém mus´ı b ýt schopen rozpoznat hierarchie dimenz´ı a vykonávat asociované kumulované kalkulace jak nad jednou, tak nad v´ıce dimenzemi souˇcasnˇe.

10. Intuitivn´ı manipulace s daty - Uˇzivatelské rozhran´ı by mˇelo umoˇz ˇnovat intui-tivn´ı manipulaci se systémem a analytick ými sluˇzbami.

11. Flexibiln´ı vykazován´ı - Systém mus´ı umoˇz ˇnovat anal ýzu pomoc´ı intuitivn´ı vizuáln´ı prezentace, na základˇe uspoˇrádán´ı ˇrádk ˚u a sloupc ˚u.

12. Neomezené dimenze úrovnˇe agregace - OLAP by nemˇel zavádˇet umˇelé omezen´ı poˇctu podporovan ých dimenz´ı modelu.

2.1.2 Datov ´e modely v OLAP

Pro systémy OLAP je typické, ˇze na data pohl´ıˇzej´ı jako na tzv. datovou krychli (data cube). Je bˇeˇzné, ˇze tyto ”kostky”maj´ı v´ıce neˇz 3 rozmˇery (nejde tedy v pravém slova smyslu o krychle, ale sp´ıˇse hyperkrychle (hypercubes)). Systémy vyuˇz´ıvaj´ıc´ı n-rozmˇerné krychle jsou oznaˇcovány jako MOLAP (multidimensional OLAP).

(11)

Atributy jsou zde reprezentovány dimenzemi, záznamy pak tovˇr´ı jednotlivé bu ˇnky krychle. Kromˇe samotn ých záznam ˚u z operaˇcn´ı databáze obsahuj´ı datové krychle také d´ılˇc´ı agregace, které pˇredevˇs´ım umoˇz ˇnuj´ı velmi rychlou odezvu na ad-hoc dotazy (viz [4]).

Záznamy v tˇechto krychl´ıch se pak nacházej´ı na pˇr´ısluˇsn ých pr ˚useˇc´ıc´ıch jednotliv ých dimenz´ı. Tento zp ˚usob vˇsak vede k velice ˇr´ıdkému ukládán´ı dat. Fyzická implementace se proto od logické implementace liˇs´ı. Nejrozˇs´ıˇrenˇejˇs´ı jsou tyto dva pˇr´ıstupy (viz [4]) -oba dva jsou k dispozici v OLE DB:

• Hyperkrychle - Tento pˇr´ıstup implementuje datov ý model tak, ˇze vˇsechny dimenze náleˇz´ı jediné n-rozmˇerné krychli. V ýhodou tohoto pˇr´ıstupu je jednoduchá a srozu-mitlená struktura.

• Multikrychle - V tomto modelu jsou data rozdˇeleny v nˇekolika menˇs´ıch krychl´ıch, z nichˇz kaˇzdá má pˇriˇrazeno jen nˇekolik vlastn´ıch dimenz´ı. Tento pˇr´ıstup je sice sloˇzitˇejˇs´ı neˇz hyperkrychle, to je vˇsak vyváˇzeno úspornˇejˇs´ım zp ˚usobem uloˇzen´ı dat. Nev ýhodou systém ˚u MOLAP je jejich nároˇcnost na datov ý server (data jsou uloˇzena jednak standardn´ım zp ˚usobem v relaˇcn´ı databázi, jednak v multidimenzionáln´ı databázi). Tyto systémy proto nejsou vhodné pro dynamické aplikace a své vyuˇzit´ı nacházej´ı sp´ıˇse ve stˇrednˇe velk ých (5-10 milion ˚u záznam ˚u v dimenzi) statick ých aplikac´ıch (napˇr. anal ýza prodeje urˇcitého produktu). V ýchoz´ı nastaven´ı úloˇzného m ódu (storage mode) v SQL Serveru 2008 je nastaveno právˇe na MOLAP (viz [7]).

Pro opravdu rozsáhlé databáze (kde má dimenze v´ıce neˇz 10 milion ˚u záznam ˚u) jsou vhodnˇejˇs´ı systémy ROLAP (relational OLAP). Systémy ROLAP pouˇz´ıvaj´ı pro anal ýzu data z relaˇcn´ıch datov ých sklad ˚u, uˇzivateli je po zpracován´ı tˇechto dat zpˇr´ıstupnˇen mul-tidimenzionáln´ı pohled - nedocház´ı tak k vytváˇren´ı redundann´ıch dat jako u MOLAP. Data i metadata se ukládaj´ı do relaˇcn´ı databáze a OLAP server z nich dynamicky gene-ruje SQL pˇr´ıkazy pro z´ıskán´ı uˇzivatelem poˇzadovan ých dat.

2.1.3 Ukl ád án´ı analytick ých dat v BI

V analytick ých systémech jsou data bˇeˇznˇe ukládána následuj´ıc´ımi dvˇema zp ˚usoby. Datový sklad (Data store) - M´ısto, kde jsou data urˇcená pro anal ýzu uloˇzena se oznaˇcuje jako datov ý sklad. Nejznámˇejˇs´ı definice datového skladu pocház´ı od tv ˚urce tohoto kon-ceptu - W. H. Inmona (pˇrevzato z [3]): Datov ý sklad je podnikovˇe strukturovan ý de-pozitáˇr subjektivnˇe orientovan ých, integrovan ých, ˇcasovˇe promˇenn ých, historick ých dat pouˇzit ých na z´ıskáván´ı informac´ı a podporu rozhodován´ı. V datovém skladu jsou uloˇzena atomická a sumárn´ı data.

Inmon definoval následuj´ıc´ı vlastnosti typické pro datové sklady:

- subjektová orientovanost - V datovém skladu jsou oproti produkˇcn´ım databáz´ım u-chovávána pouze data pouˇzitelná pro strategické rozhodován´ı.

(12)

- ˇcasová promˇennost - Fixace dat z produkˇcn´ı databáze - datov ý sklad je pravidelnˇe aktualizován (off-line).

- stálost - Data uloˇzená v datovém skladu nejsou analytick ými dotazy nijak mˇenˇena. Datov ý sklad zpravidla nen´ı vytváˇren pro konkrétn´ı anal ýzu.

Datové trˇziˇstˇe (Data mart) Datová trˇziˇstˇe jsou pˇresnˇe specifikované podmnoˇziny da-tového skladu urˇcené pro menˇs´ı organizaˇcn´ı sloˇzky firmy. Datové trhy mohou vznikat ”zdola”, kdy jsou jednotliv ým firemn´ım oddˇelen´ım vytvoˇreny datové trhy a na závˇer je vytvoˇzen zaˇst’it’uj´ıc´ı datov ý sklad, nebo ”shora”, kdy je nejprve vytvoˇren centráln´ı inte-grovan ý datov ý sklad a teprve z nˇej se odˇstˇep´ı nˇekolik datov ých trh ˚u.

Data zavedená v databázi, databázovém skladu, pˇr´ıpadnˇe kostce jsou jiˇz vhodná pro aplikaci analytick ých sluˇzeb.

2.2 Proces hled ´an´ı znalost´ı v datab ´az´ıch

Hledán´ı znalost´ı v databáz´ıch (Knowledge Discovering in Databases) je proces, kter ý se poprvé objevil na zaˇcátku 90. let - tehdy také vzrostla potˇreba zpracovávat firemn´ı data za úˇcelem podpory podnikové strategie [4]. KDD je integrac´ı statistick ých metod a metod umˇelé inteligence, která umoˇz ˇnuje realizovat anal ýzy nad rozsáhl ými databázemi vedouc´ı k informac´ım, které jsou relevantn´ı pro podporu strategického rozhodován´ı.

Ussama Fayyad [6] popisuje proces hledán´ı znalost´ı v databáz´ıch, jako v ývoj metod a technik, které maj´ı dát dat ˚um v ýznam. Problémem, kter ý má KDD ˇreˇsit pak je pˇrevod dat n´ızké úrovnˇe (typicky rozsáhlé, lidsk ými silami obt´ıˇznˇe zpracovatelné databáze) do jiné formy, která m ˚uˇze vykazovat vˇetˇs´ı m´ıru kompaktnosti, abstrakce, pˇr´ıpadnˇe pouˇzitelnosti. Pojem dolován´ı dat (data mining) je pak oznaˇcen´ım aplikace konkrétn´ıch algoritm ˚u extrahuj´ıc´ıch z databáze datové vzory - jde tedy pouze o ˇcást KDD procesu (viz n´ıˇze). Data mining (resp. KDD) má ˇsiroké vyuˇzit´ı, at’ uˇz jde o vˇedeck ý v ýzkum, pr ˚umysl, fi-nanˇcn´ıctv´ı, zdravotnictv´ı nebo marketingové anal ýzy.

Proces dob ýván´ı znalost´ı z databáz´ı dále Fayyad rozdˇeluje do následuj´ıc´ıch fáz´ı: 1. Porozumˇen´ı aplikaˇcn´ı doménˇe.

2. Vytvoˇren´ı c´ılové mnoˇziny dat - tzn. v ýbˇer mnoˇziny promˇenn ých na které se v ýzkum bude provádˇet.

3. Proˇciˇst’ován´ı a pˇredzpracován´ı dat - odstranˇen´ı ˇsumu, v ýbˇer strategi´ı pro nakládán´ı s chybˇej´ıc´ımi datov ými poli, posouzen´ı vhodnosti pouˇzit´ı ˇcasov ých ˇrad.

4. Redukce dat a projekce - nalezen´ı znak ˚u pouˇziteln ých pro reprezentaci dat v závislosti na c´ılech úlohy.

5. Spojen´ı c´ıle KDD s vhodnou DM metodou - sumarizace, klasifikace, regrese, atd. 6. Analýza a výbˇer hypotézy - v ýbˇer konkrétn´ıho algoritmu a metod selekce.

(13)

7. Samotný DM proces - vyhledáván´ı vzor ˚u v pˇr´ısluˇsné mnoˇzinˇe dat, pˇrevod v ýsledk ˚u do pˇr´ısluˇsné formy (shluky, stromy, atd.).

8. Interpretace vydolovaných vzor ˚u - je moˇzné, ˇze v rámci iterace procesu dojde k návratu do kteréhokoliv pˇredchoz´ıho bodu, spadá sem také vizualizace v ýstupu.

9. Nakládán´ı s nabytou znalost´ı - pˇr´ımé pouˇzit´ı znalosti, zaˇclenˇen´ı do jiného systému, kontrola správnosti.

Podrobnému popisu jednotliv ých metod a algoritm ˚u dolován´ı dat implementovan ých v SQL Serveru 2008 se vˇenuji ve zvláˇstn´ı kapitole.

2.3 Reportovac´ı sluˇzby

V ýsledky procesu dolován´ı dat je v SQL Serveru 2008 moˇzno prezentovat pomoc´ı tzv. reportovac´ıch sluˇzeb. Tyto sluˇzby slouˇz´ı zejména pro zpˇr´ıstupnˇen´ı v ýsledk ˚u anal ýz, resp. podmnoˇzin tˇechto v ýsledk ˚u, skupinám analytik ˚u, pˇr´ıpadnˇe pˇr´ımo ”konzument ˚u infor-mac´ı”(viz. [3]).

Ve své práci se reportovac´ımi sluˇzbami nezab ývám - pro pouhé testován´ı analytick ých sluˇzeb nemaj´ı vyuˇzit´ı.

(14)

3 Algoritmy pro dolov ´an´ı dat v SQL Serveru 2008

MS SQL Server 2008 poskytuje pro procesy dolován´ı dat mnoho nástroj ˚u. V ýbˇer a apli-kace konkrétn´ıho nástroje závis´ı na typu a parametrech ˇreˇseného problému.

Implementované metody (resp. konkrétn´ı algoritmy) m ˚uˇzeme rozdˇelit podle základn´ıho zp ˚usobu, jak ým pracuj´ı na nˇekolik skupin. Jde o asociaˇcn´ı metody, ˇcasové ˇrady, metody shlukovac´ı, rozhodovac´ı stromy, metodu Bayesovu a neuronové s´ıtˇe1.

3.1 Popis DM metod v SQL Serveru 2008

Stati pojednávaj´ıc´ı o jednotliv ých metodách, které SQL Server 2008 pouˇz´ıvá jsou rozdˇeleny na dvˇe ˇcásti. V prvn´ı ˇcásti je popsána struˇcná historie zdroj ˚u dané metody, obecnˇe platné principy a teoretické zázem´ı.

Druhá ˇcást má poskytnout detailn´ı vhled do princip ˚u funkce metody, tak, jak je im-plementována v SQL Serveru 2008, tj. popis konkrétn´ıch algoritm ˚u, parametr ˚u funkc´ı, které jsou k dispozici a bliˇzˇs´ıch specifikac´ı pro uˇzit´ı dané metody.

3.2 Moˇznosti nastaven´ı DM modelu

SQL Server 2008 umoˇz ˇnuje nastavovat tzv. modelové znaˇcky (Modeling Flags), pomoc´ı kter ých je moˇzné dodateˇcnˇe upˇresnit parametry DM modelu a lépe tak pˇrizp ˚usobit jeho charakteristiky danému problému (napˇr. omezen´ım mnoˇziny dat, se kterou DM algorit-mus bude zacházet, atd.).

Jedn´a se o tyto znaˇcky: • NOT NULL

- Urˇcuje ˇze záznamy takto oznaˇceného sloupce nesm´ı obsahovat prázdnou hod-notu. V pˇr´ıpadˇe nálezu prázdné hodnoty, ohlás´ı analytické sluˇzby jako chybu. • MODEL EXISTENCE ONLY

- Urˇcuje, ˇze dan ý sloupec m ˚uˇze nab ývat dvou hodnot - Missing a Existing (v pˇr´ıpadˇe, ˇze je nastaven na NULL, je brán, jako by byl nastaven na Missing). Tato znaˇcka se pouˇz´ıvá u sloupc ˚u, kde je v ýznamˇejˇs´ı samotn ý fakt, zda je dan ý záznam vyplnˇen (Existing), nebo nevyplnˇen (Missing), neˇz to, jakou hodnotu obsahuje.

• REGRESSOR

- Tento parametr urˇcuje, ˇze dan ý sloupec obsahuje potenciáln´ı nezávislé promˇenné (regresory). Tento parametr nezajiˇst’uje, ˇze bude záznam sloupce pouˇzit jako regre-sor (má pro algoritmus pouze dopouruˇcuj´ıc´ı funkci).

Kromˇe parametr ˚u celého DM modelu nab´ız´ı SQL Server 2008 pro kaˇzdou metodu mnoho parametr ˚u, pomoc´ı kter ých je moˇzné optimalizovat

1_{Pˇri psan´ı celé této ˇcásti jsem rámcovˇe ˇcerpal z oficiáln´ı technické dokumentace firmy Microsoft [7]. V}

(15)

3.3 Moˇznosti nastaven´ı parametr ˚u algoritm ˚u metod pro DM

Algoritmy metod provádˇej´ıc´ıch dolován´ı dat je v SQL Serveru 2008 moˇzno optimalizo-vat pro konkrétn´ı pˇr´ıpad pomoc´ı mnoˇzstv´ı parametr ˚u. Tyto parametry se liˇs´ı podle typu metody. Tˇemito parametry lze pˇri jejich vhodném nastaven´ı znaˇcnˇe ovlivnit (resp. opti-malizovat) chován´ı algoritmu.

3.4 Metody vizualizace v ´ysledk ˚u anal ´yzy

Kaˇzdá z DM metod v SQL Serveru 2008 poskytuje nástroj pro pˇrehledné grafické znázornˇen´ı v ýsledk ˚u, které umoˇz ˇnuje sledovat napˇr. korelace mezi vstupy a v ýstupy, vˇetven´ı rozho-dovac´ıch strom ˚u, pˇr´ısluˇsnost vstupn´ıch prvk ˚u k vytvoˇren ým shluk ˚um, atd.

3.5 Asocia ˇcn´ı metody

Asociaˇcn´ı metody jsou pouˇz´ıvány napˇr´ıklad pro tvorbu doporuˇcovac´ıch systém ˚u (kdy zákazn´ıkovi doporuˇcujeme urˇcit ý produkt na základˇe informac´ı o jeho dˇr´ıvˇejˇs´ıch ob-jednávkách), anal ýzu nákupn´ıch koˇs´ık ˚u a anal ýze vztah ˚u (pravidel). Tomuto vyuˇzit´ı aso-ciaˇcn´ıch algoritm ˚u se poˇcátkem 90. let vˇenoval Rakesh Agrawal.

V publikaci Dob ýván´ı znalost´ı z databáz´ı [4] nalezneme následuj´ıc´ı zápis asociaˇcn´ıho pravidla:

Ant => Suc,

kde levá strana pravidla je pˇredpokladem (antecedentem) a pravá strana pravidla závˇerem (sukcedentem).

Agrawal [12] podrobnˇeji definuje form´aln´ı asociaˇcn´ı pravidlo jako implikaci X => Ij,

kde X je podmnoˇzina prvk ˚u z mnoˇziny aribut ˚u I. Ij je samostatn ´y prvek z mnoˇziny

I, kter ´y nen´ı obsaˇzen v X.

Pro charakterizaci asociaˇcn´ıch pravidel pouˇz´ıv´a dvˇe veliˇciny: podpora (support) a spo-lehlivost (confidence) - viz [4].

Podpora je hodnota vyjadˇruj´ıc´ı poˇcet objekt ˚u spl ˇnuj´ıc´ıch pˇredpoklad i z´avˇer : P (Ant ∧ Suc) = a

a + b + c + d.

Spolehlivost je hodnota vyjadˇruj´ıc´ı podm´ınˇenou pravdˇepodobnost z´avˇeru, pokud je pˇredpoklad platn ´y:

P (Suc | Ant) = a a + b.

V t´eˇze publikaci je uvedeno dˇelen´ı asociaˇcn´ıch pravidel podle platnosti a pokryt´ı (Holseheimer, Siebs, 1994):

• Konzistentn´ı pravidla - platnost je rovna 1, lev´a strana je postaˇcuj´ıc´ı podm´ınkou pro splnˇen´ı prav´e strany.

(16)

• Úplná pravidla - pokryt´ı je rovno 1, levá strana je nutnou podm´ınkou pro splnˇen´ı pravé strany.

• Deterministická pravidla - platnost i pokryt´ı je rovno 1, levá strana je nutnou a postaˇcuj´ıc´ı podm´ınkou pro splnˇen´ı pravé strany.

Nalezneme zde rovnˇeˇz zm´ınky a odkazy na dalˇs´ı charakteristiky asociaˇcn´ıch pravi-del.

3.5.1 Implementace asocia ˇcn´ıch metod v SQL Serveru 2008

Asociaˇcn´ı algoritmus procház´ı mnoˇzinou dat a vyhledává prvky, které se vyskytuj´ı ve stejném záznamu. Asociované prvky jsou následnˇe seskupeny do mnoˇzin prvk ˚u, jejichˇz minimáln´ı velikost je definována parametrem MINIMUM SUPPORT.

Na základˇe tˇechto mnoˇzin jsou dále generována pravidla, která se pozdˇeji pouˇzij´ı pro predikci pˇr´ıtomnosti prvku, odvozené od pˇr´ıtomnosti jin ých prvk ˚u, které algoritmus shledá d ˚uleˇzité.

Samotn ý asociaˇcn´ı algoritmus je implementován jako pˇr´ımá implemenace Apriori al-goritmu. Mimo tohoto algoritmu je pro hledán´ı asociac´ı moˇzné pouˇz´ıt také algoritmus rozhodovac´ıch strom ˚u - jejich v ýsledky se vˇsak mohou liˇsit. Zat´ımco u rozhodovac´ıch strom ˚u jsou pravidla tvoˇrena na základˇe z´ıskan ých nov ých informac´ı, v pˇr´ıpadˇe aso-ciaˇcn´ıch model ˚u jsou pravidla zaloˇzena pouze na hodnotˇe spolehlivosti. Pravidlo, které má vysokou spolehlivost totiˇz nemus´ı nezbytnˇe nutnˇe vést k vytvoˇren´ı nové informace.

Algoritmus generuje kandidátn´ı mnoˇziny, jejichˇz prvky pˇredstavuj´ı události, pro-dukty, a pod. Nejˇcastˇeji jde o binárn´ı hodnoty, jako ano/ne, chybˇej´ıc´ı/existuj´ıc´ı, atd. Pro kaˇzdou z mnoˇzin je pak vygenerováno hodnocen´ı jej´ı podpory a spolehlivosti. Atributy obsahuj´ıc´ı spojité hodnoty jsou diskretizovány nebo seskupeny do ”koˇs ˚u”(buckets).

ˇ

C´ıslo vyjadˇruj´ıc´ı poˇcet záznam ˚u, obsahuj´ıc´ı poˇzadované hodnoty (resp. jejich kombi-naci) se oznaˇcuje jako d ˚uleˇzitost (nˇekdy také frekvence). Do modelu jsou tedy zaˇrazovány pouze ty mnoˇziny, které maj´ı tuto hodnotu dostateˇcnˇe vysokou.

Taková mnoˇzina prvk ˚u, která obsahuje vˇetˇs´ı mnoˇzstv´ı kombinac´ı prvk ˚u, neˇz je stano-ven práh definovan ý parametrem MINIMUM SUPPORT se naz ývá frekstano-ventovaná mnoˇzina prvk ˚u (frequent itemset). Pokud sestává mnoˇzina z prvk ˚u {A, B, C} a hodnota parametru MINIMUM SUPPORT je napˇr. 10, mus´ı b ýt kaˇzdá samostatná hodnota A, B, C nalezena nejménˇe v 10 záznamech, aby byla zaˇclenˇena do modelu - totéˇz plat´ı také pro kombinaci prvk ˚u {A, B, C}.

Mnoˇzstv´ı prvk ˚u obsaˇzen ých v záznamech je moˇzno vyjádˇrit také procentuálnˇe, v takovém pˇr´ıpadˇe nastav´ıme parametr MINIMUM SUPPORT na hodnotu mezi 0 (od-pov´ıdá 0%) a 1 (od(od-pov´ıdá 100%). Do modelu pak budou zaˇrazeny ty záznamy, které obsahuj´ı alespo ˇn dané procento poˇzadovan ých prvk ˚u, resp. mnoˇzin.

Práh pro pˇr´ıpustnost pravidla je vyjádˇrena jako pravdˇepodobnost. Pokud se napˇr´ıklad mnoˇzina prvk ˚u {A, B, C} objevuje u 50 záznam ˚u, ale stejnˇe tak se u jin ých 50 záznam ˚u objevuje mnoˇzina {A, B, D} a v jin ých 50 záznamech mnoˇzina {A, B}, nem ˚uˇzeme oznaˇcit mnoˇzinu {A, B} za zˇrejm ý prediktor prvku C. Poˇcet pravidle vytvoˇren ých modelem m ˚uˇzeme omezit parametrem MINIMUM PROBABILITY.

(17)

Kaˇzdému vytvoˇrenému pravidlu je pˇriˇrazena hodnota vyjadˇruj´ıc´ı jeho d ˚uleˇzitost (im-portance). Ta se poˇc´ıtá jinak pro pravidla a jinak pro mnoˇziny prvk ˚u.

D ˚uleˇzitost mnoˇzin prvk ˚u se poˇc´ıtá jako pravdˇepodobnost mnoˇziny prvk ˚u a celkového poˇctu záznam ˚u. Mˇejme mnoˇzinu obsahuj´ıc´ı prvky {A, B}. Analytické sluˇzby nejprve spoˇc´ıtaj´ı vˇsechny záznamy obshauj´ıc´ı tuto kombinaci A a B a tu pak vydˇel´ı celkov ým poˇctem záznam ˚u a normalizuje pravdˇepodobnost.

D ˚uleˇzitost pravidel se poˇc´ıtá jako pravdˇepodobnost pravé strany pravidla na základˇe jeho levé strany. Napˇr´ıklad u pravidla If (A)T hen(B) je nejprve spoˇc´ıtán pomˇer mezi záznamy obsahuj´ıc´ı A a B a záznamy obsahuj´ıc´ı B bez A. Pomˇer je pak normalizován pomoc´ı logaritmické ˇskály.

Tento algoritmus neprovád´ı ˇzádnou formu automatické selekce rys ˚u. M´ısto n´ı je potˇreba vyuˇz´ıt nastaven´ı parametr ˚u. T´ımto m ˚uˇzeme vyˇradit pˇr´ıliˇs bˇeˇzné prvky a události (sn´ıˇzen´ım hodnoty MAXIMUM SUPPORT), nebo naopak události a prvky s pˇr´ıliˇs n´ızkou m´ırou v ýskytu (zv ýˇsen´ım hodnoty MINIMUM SUPPORT), pˇr´ıpadnˇe filtrovat nepodstatná pra-vidla (zv ýˇsen´ım hodnoty MINIMUM PROBABILITY).

3.5.2 Parametry pro optimalizaci asocia ˇcn´ı metody

Vykonáván´ı algoritmu, zejména pak tvorba mnoˇzin prvk ˚u a poˇc´ıtán´ı korelac´ı m ˚uˇze b ýt velice zdlouhavé. Jeho v ýkon je moˇzné pozitivnˇe ovlivnit správn ým nastaven´ım ˇrady parametr ˚u.

Nejvˇetˇs´ımi pˇrekáˇzkami v rychlém provádˇen´ı algoritmu m ˚uˇze b ýt pˇr´ıliˇs rozsáhlá mnoˇzina dat obsahuj´ıc´ı velké mnoˇzstv´ı samostatn ých prvk ˚u, nebo napˇr´ıklad pˇr´ıliˇs n´ızká hodnota parametru minimáln´ı velikosti mnoˇziny prvk ˚u.

MAXIMUM ITEMSET COUNT

- Specifikuje maximáln´ı poˇcet mnoˇzin prvk ˚u, kter ý má b ýt vyprodukován. Pokud nen´ı ˇc´ıslo zadáno, je pouˇzita v ýchoz´ı hodnota.

V ´ychoz´ı hodnota je 200000. MAXIMUM ITEMSET SIZE

- Specifikuje maximáln´ı mnoˇzstv´ı prvk ˚u, které mohou b ýt v jedné mnoˇzinˇe. Nasta-ven´ı na 0 urˇcuje, ˇze velikost mnoˇziny je nelimitována.

V ´ychoz´ı hodnota je 3. MAXIMUM SUPPORT

- Specifikuje maximáln´ı poˇcet záznam ˚u, které mohou b ýt pouˇzity pro mnoˇzinu prvk ˚u. Tento parametr slouˇz´ı k odstranˇen´ı prvk ˚u, které se objevuj´ı ˇcasto a t´ım pádem maj´ı mal ý potenciáln´ı v ýznam.

Pokud je tato hodnota nastavena na 1, reprezentuje hodnota procento ze vˇsech záznam ˚u. Hodnoty vˇetˇs´ı neˇz 1 reprezentuj´ı absolutn´ı poˇcet záznam ˚u, které m ˚uˇze mnoˇzina prvk ˚u obsahovat.

(18)

MINIMUM IMPORTANCE

- Specifikuje rozsah d ˚uleˇzitosti pro asociativn´ı pravidla. Pravidla s d ˚uleˇzitost´ı niˇzˇs´ı neˇz tato hodnota jsou odfiltrov´ana. (K dispozici pouze v edici Enterpise)

MINIMUM ITEMSET SIZE - Specifikuje minimáln´ı poˇcet záznam ˚u, které mohou b ýt pouˇzity pro mnoˇzinu prvk ˚u. Zv ýˇsen´ı tohoto ˇc´ısla m ˚uˇze v modelu sn´ıˇzit poˇcet mnoˇzin prvk ˚u. Lze tak napˇr´ıklad ignorovat jednoprvkové mnoˇziny.

V ´ychoz´ı hodnota je 1.

MINIMUM PROBABILITY - Specifikuje minimáln´ı pravdˇepodobnost, ˇze je pravi-dlo pravdivé. Napˇr´ıklad nastaven´ı této hodnoty na 0,5 znamená, ˇze nebude gene-rováno ˇzádné pravdilo s pravdˇepodobnost´ı niˇzˇs´ı neˇz 50%.

V ´ychoz´ı hodnota je 0,4. MINIMUM SUPPORT

- Specifikuje minimáln´ı poˇcet záznam ˚u, které mus´ı mnoˇzina prvk ˚u obsahovat, neˇz algoritmus vygeneruje pravidlo. Nastaven´ım této hodnoty na ménˇe neˇz 1 je jako minimáln´ı ˇc´ıslo vypoˇc´ıtáno jako dané procento z celkového poˇctu záznam ˚u. Nastaven´ım na celé ˇc´ıslo vyˇsˇs´ı neˇz 1 doc´ıl´ıme toho, ˇze se bude toto brát jako ab-solutn´ı poˇcet záznam ˚u, které mus´ı mnoˇzina prvk ˚u obsahovat. Algoritmus m ˚uˇze v pˇr´ıpadˇe nedostatku pamˇeti tuto hodnotu automaticky zv ýˇsit.

V ýchoz´ı hodnota je 0,03. To znamená, ˇze aby byla mnoˇzina prvk ˚u zaˇclenˇena do modelu je nutné, aby byla nalezena nejménˇe ve 3% záznam ˚u.

OPTIMIZED PREDICTION COUNT

- Definuje poˇcet prvk ˚u pouit ých pro optimalizaci predikce. V ýchoz´ı hodnota je 0. V takovém pˇr´ıpadˇe bude algoritmus produkovat takové mnoˇzstv´ı predikc´ı, jaké muje zadáno v dotazu.

Nastaven´ım na nenulovou hodnotu, bude predikˇcn´ı dotaz vracet nejv ýˇse tolik prvk ˚u, kolik je tato hodnota, a to i v pˇr´ıpadˇe, ˇze poˇzadujete v´ıce predikc´ı. Kaˇzdopádne m ˚uˇze nastaven´ı tohoto parametru zlepˇsit v ýkon predikc´ı.

Pokud nastav´ıme hodnotu napˇr´ıklad na 3, bude algoritums pro predikce pouˇz´ıvat pouze 3 prvky. Ostatn´ı predikce, které pˇritom mohou b ýt stejnˇe pravdˇepodobné, neuvid´ıte.

(19)

3.6 Casov ´e ˇradyˇ ˇ

Casové série jsou metodou, která je pouˇz´ıvána v situac´ıch, kdy je potˇreba provést od-had v ývoje hodnoty urˇcité promˇenné v ˇcase (napˇr. v ývoj prodejnosti produktu, atd.). Nalezen´ı tohoto trendu se odv´ıj´ı od zpracován´ı mnoˇziny základn´ıch historick ých dat a vytvoˇren´ı modelu. Na základˇe tˇechto vstupn´ıch dat se následnˇe provád´ı predikce v ývoje trendu.

V publikaci Time series analysis [11] je pak stochastická ˇcasová série formálnˇe defi-nována jako nekoneˇcná ˇrada

..., X−2, X−1, X0, X1, X2, ...

n´ahodn ´ych hodnot, nebo vektor ˚u .

Spojen´ı zdrojov ých dat a v ýsledk ˚u predikce se pak oznaˇcuje jako ˇrada (série). Pro správn ý pr ˚ubˇeh anal ýzy touto metodou je potˇreba m´ıt v záznamech zpracovávané da-tabáze sloupec dat, která urˇcuj´ı ˇcasové obdob´ı, pro které záznam plat´ı.

3.6.1 Implementace ˇcasov ´ych ˇrad v SQL Serveru 2008

Microsoft SQL Server 2008 poskytuje pro práci s ˇcasov ými ˇradami dva odliˇsné algoritmy. Prvn´ım je, uˇz ve verzi 2005 obsaˇzen ý, algoritmus ARTxp a druh ým je algoritmus ARIMA, kter ý je novˇe pˇridan ý v SQL Serveru 2008.

Ve v ýchoz´ım stavu jsou pro trénován´ı modelu pouˇz´ıvány oba algoritmy separovanˇe - pro z´ıskán´ı optimáln´ıch predikc´ı se pak jejich v ýstupy m´ıchaj´ı. Je vˇsak moˇzné i pouˇzit´ı pouze jednoho z algoritm ˚u, ˇci nastaven´ı pomˇeru mezi algoritmy.

3.6.1.1 ARTxp Algoritmus ARTxp (autoregressive tree algorithm) je v ´ysledkem v ´yvoje Microsoft Research a je zaloˇzen na algoritmu rozhodovac´ıch strom ˚u .

ARTxp algoritmus také narozd´ıl od algoritmu ARIMA podporuje tzv. kˇr´ıˇzenou pre-dikci. Pokud pouˇzijeme pro trénován´ı algoritmu dvˇe oddˇelené pˇr´ıbuzné ˇrady, je moˇzné pouˇz´ıt v ýsledn ý model pro predikci v ýsledku jedné ˇcasové ˇrady na základˇe chován´ı jin ých ˇrad (vyuˇzitelné napˇr. pro pˇr´ıpady, kdy prodejnost jednoho produktu ovliv ˇnuje prodej druhého). Kˇr´ıˇzená predikce je vyuˇzitelná také pro tvorbu hlavn´ıho modelu, kter ý je pouˇzit pro tvorbu dalˇs´ıch ˇrad.

Algoritmus ARTxp je vhodn ´y pro predikci n´asleduj´ıc´ıcho kroku (stavu).

3.6.1.2 ARIMA Modely ARIMA (autoregressive integrated moving average) jsou jed-nou z nejv ýznamˇejˇs´ıch tˇr´ıd model ˚u pro anal ýzu ˇcasov ých ˇrad. ARIMA je definována lineárn´ımi relacemi mezi pozorován´ımi a ˇsumov ými faktory. Definice procesu ARIMA v publikaci [11] zn´ı:

ˇ

Casová série Xtje procesem ARIMA (p, d, q) v pˇr´ıpadˇe, ˇze 5dXtje stacionárn´ı ARMA (p, q)

proces.

(20)

3.6.2 Parametry pro optimalizaci ˇcasov ´ych ˇrad

Oba algoritmy podporuj´ı tzv. detekci sez ónnosti, pˇr´ıpadnˇe periodicity - pro tento úˇcel je pouˇzita rychlá Fourierova transformace.

AUTO DETECT PERIODICITY

- Specifikuje detekci periodicity. Nab ývá hodnot od 0 do 1. V ýchoz´ı hodnota je 0,6. Pokud je hodnota bl´ızká 0, je periodicita detekována pouze pro silnˇe periodická data. Nastaven´ı hodnoty bl´ızko 1 podporuje procházen´ı mnoha vzor ˚u, které jsou témˇeˇr periodické a automatické generován´ı stop periodicity.

Zahrnut´ı velkého mnoˇzstv´ı stop periodicity bude m´ıt tendenci vést k v ýraznému zv ýˇsen´ı ˇcasu pro trénován´ı, ale model bude mnohem pˇresnˇejˇs´ı.

COMPLEXITY PENALTY

- Kontroluje r ˚ust rozhodovac´ıho stromu. V ´ychoz´ı hodnota je 0,1.

Sn´ıˇzen´ım t´eto hodnoty se zvyˇsuje pravdˇepodobnost vˇetven´ı. Zv ´yˇsen´ı tuto pravdˇe-podobnost naopak sn´ıˇz´ı. Tento parametr je k dispozici pouze v edici Enterprise. FORECAST METHOD

- Urˇcuje, kter ý algoritmus bude pouˇzit pro anal ýzu a predikci. Moˇzné hodnoty jsou: ARTXP, ARIMA nebo MIXED.

V ´ychoz´ı hodnota je MIXED. HISTORIC MODEL COUNT

- Specifikuje poˇcet historick ých model ˚u, které maj´ı b ýt vybudovány. V ýchoz´ı hod-nota je 1. Tento parametr je k dispozici pouze v edici Enterprise.

HISTORICAL MODEL GAP

- Specifikuje ˇcasové prodlevy mezi dvˇema po sobˇe jdouc´ımi historick ými modely. V ýchoz´ı hodnota je 10. Tato hodnota reprezentuje poˇcet ˇcasov ých jednotek, kde jednotka je definována datov ým modelem.

Napˇr´ıklad nastaven´ım této hodntoy na ”g”budou historické modely budovány pro data spadaj´ıc´ı do ˇcasov ých úsek ˚u v intervalech g, 2g, 3g atd.

INSTABILITY SENSITIVITY

- Kontroluje bod, kde predikce odchylky pˇresáhne urˇcit ý práh a algoritmus ARTXP predikci potlaˇc´ı.

Tento parametr se aplikuje pouze pro algoritmus ARTXP a neovlivn´ı tedy modely pouˇz´ıvaj´ıc´ı algoritmus ARIMA. Pˇri pouˇzit´ı MIXED modelu je aplikov´an pouze pro ˇc´ast modelu pouˇz´ıvaj´ıc´ı algoritmus ARTXP.

(21)

V ýchoz´ı hodnota je 1. Toto nastaven´ı poskytuje pro modely ARTXP stejné chován´ı jako SQL Server 2005. Analytické sluˇzby pro kaˇzdou predikci monitoruj´ı normali-zovanou standardn´ı odchylku. V okamˇziku, kdy tato odchylka pˇresáhne tuto hra-nici, vrát´ı algoritmus hodnotu NULL a zastav´ı proces predikce.

Nastaven´ı na 0 zastav´ı detekci nestability. To znamená, ˇze m ˚uˇzete vytváˇret i ne-koneˇcn ý poˇcet predikc´ı bez ohledu na odchylky.

Tento parametr m ˚uˇze b ýt modifikován pouze v edici Enterprise. V SQL Serveru Standard je pouˇzitelná pouze v ýchoz´ı hodnota 1.

MAXIMUM SERIES VALUE

- Specifikuje maximáln´ı hodnoty pouˇzité pro predikci. Tento parametr se pouˇz´ıvá spolu s parametrem MINIMUM SERIES VALUE pro omezen´ı predikce na urˇcité oˇcekávané rozmez´ı. Napˇr´ıklad m ˚uˇzeme urˇcit, ˇze predikované mnoˇzstv´ı transakc´ı prodeje pro kter ýkoliv den by nemˇel pˇresáhnout poˇcet produkt ˚u v inventáˇri. Tento parametr je k dispozici pouze v edici Enterprise.

MINIMUM SERIES VALUE

- Specifikuje minimáln´ı hodnotu, která m ˚uˇze b ýt predikována. Tento parametr b ývá pouˇz´ıván spolu s MAXIMUM SERIES VALUE pro omezen´ı predikce urˇcité oˇcekávané rozmez´ı. Napˇr´ıklad m ˚uˇzeme urˇcit, ˇze predikované mnoˇzstv´ı transakc´ı prodeje nem ˚uˇze b ýt záporné ˇc´ıslo.

Tento parametr je k dispozici pouze v edici Enterprise. MINIMUM SUPPORT

Specifikuje minimáln´ı poˇcet ˇcasov ých úsek ˚u, kter ý je potˇrebn ý pro vytvoˇren´ı vˇetven´ı ve stromu kaˇzdé ˇcasové ˇrady. V ýchoz´ı hodnota je 10.

MISSING VALUE SUBSTITUTION

Specifikuje zp ˚usob, jak ým se vypl ˇnuj´ı mezery v historick ých datech. Ve v ýchoz´ım stavu nejsou mezery v datech v ˚ubec povoleny. Následuj´ıc´ı tabulka obsahuje v ýˇcet moˇzn ých hodnot tohoto parametru.

Previous - Opakuje hodnotu z pˇredeˇslého ˇcasového úseku. Mean - Pouˇz´ıvá po-hybliv ý pr ˚umˇer ˇcasov ých úsek ˚u uˇzit ých v tréninku. Numeric constant - Pouˇz´ıvá pro náhradu chybˇej´ıc´ıch hodnot specifikované ˇc´ıslo. None (v ýchoz´ı) - Nahrazuje chybˇej´ıc´ı hodnoty hodnotami z kˇrivky trénovac´ıho modelu.

Pokud data obsahuj´ı v´ıce ˇrad, je vylouˇceno, aby mˇely ”otrhané”konce. Vˇsechny ˇrady by mˇely m´ıt stejn ý poˇcáteˇcn´ı a koneˇcn ý bod.

Analytické sluˇzby tuto hodnotu pouˇz´ıvaj´ı pro vyplnˇen´ı mezer v nov ých datech pˇri provádn´ı operace PREDICTION JOIN.

(22)

PERIODICITY HINT

Poskytuje algoritmu stopy o periodiˇcnosti dat. Napˇr´ıklad pokud se prodeje liˇs´ı kaˇzd ý rok a mˇernou jednotkou je mˇes´ıc, je periodiˇcnost 12. Parametr má formát {n, [,n]}, kde n je jakékoliv kladné ˇc´ıslo.

N v ”[]”závorkách je nepovinné a m ˚uˇze b ýt opakováno podle potˇreby. Napˇr´ıklad pro stopy v´ıceˇcetné periodiˇcnosti dat ukládan ých kaˇzd ý mˇes´ıc m ˚uˇzeme zadat {12, 3, 1} - vzory tak budeme detekovat pro rok, kvartál a mˇes´ıc.

Periodiˇcnost má siln ý vliv a kvalitu modelu. Pokud se zadané stopy liˇs´ı od aktuáln´ı periodiˇcnosti, mohou b ýt v ýsledky nepˇr´ıznivˇe ovlivnˇeny.

Pouˇzit´ı závorek je povinné. Tento parametr má datov ý typ string a pokud je zadán jako ˇcást pˇr´ıkazu Data Mining Extension (DMX), je nutné jej uvést v uvozovkách. PREDICTION SMOOTHING

- Specifikuje ”prom´ıchanost”modelu pro optimalizaci pˇredpovˇedi. M ˚uˇzete zde za-dat jakoukoliv hodnotu mezi 0 a 1, nebo pouˇz´ıt n´asleduj´ıc´ı hodnoty.

Popis hodnot:

0 - urˇcuje, ˇze predikce pouˇz´ıvá pouze ARTXP. Pˇredpov´ıdán´ı je optimalizováno pouze pro ménˇe predikc´ı.

1 - urˇcuje, ˇze predikce bude pouˇz´ıvat pouze ARIMA. Pˇredpov´ıd´an´ı je optima-lizov´ano pro v´ıce predikc´ı.

0,5 (v ýchoz´ı) - urˇcuje, ˇze maj´ı b ýt pouˇzity oba algoritmy, a v ýsledky maj´ı b ýt sm´ıchány.

Pro kontrolu tr´eninku pouˇzijte parametr FORECAST METHOD. Tento parametr je k dispozici pouze v edici Enterprise.

3.7 Shlukovac´ı metody

Shlukovac´ı metody (téˇz anal ýza shluk ˚u) slouˇz´ı ke zpracováván´ı v´ıcerozmˇern ých dat (ob-jekt ˚u s v´ıce neˇz jednou promˇennou) a nacházen´ı podobnost´ı mezi takov ými daty.

Pomoc´ı tˇechto metod je moˇzno ze vstupn´ı mnoˇziny objekt ˚u vytvoˇrit na základˇe je-jich vzájemné podobnosti tzv. shluky. Metody shlukován´ı jsou nejbˇeˇznˇeji pouˇz´ıvan ým zp ˚usobem bezdozorového uˇcen´ı (unsupervised learning) - viz [8].

V publikaci [8], jsou uvedeny n´asleduj´ıc´ı tˇri hlavn´ı c´ıle anal ´yzy shluk ˚u, cituji:

- Popis systematiky, jenˇz je tradiˇcn´ım vyuˇzit´ım shlukové anal ýzy pro pr ˚uzkumové c´ıle a taxonomii, coˇz je empirická klasifikace objekt ˚u.

- Zjednoduˇsen´ı dat, kdy anal ýza shluk ˚u poskytuje pˇri hledán´ı taxonomie zjednoduˇsen ý pohled na objekty.

(23)

- Identifikace vztahu, kdy po nalezen´ı shluk ˚u objekt ˚u, a t´ım i struktury mezi objekty, je snadnˇejˇs´ı odhalit vztahy mezi objekty.

Procesy shlukové anal ýzy m ˚uˇzeme rozdˇelit na základˇe poˇzadavk ˚u na formu v ýsledn ých shluk ˚u i podle pouˇzit ých metod podle nˇekolika kritéri´ı (pro podrobnˇejˇs´ı informace o kritéri´ıch shlukován´ı viz [1] a [2]).

3.7.1 Rozd ˇelen´ı podle vlastnost´ı shluk ˚u

Prvn´ım zp ˚usobem, jak ým m ˚uˇzeme rozdˇelovat metody shlukován´ı je zp ˚usob zaˇrazován´ı prvk ˚u do vytváˇren ých shluk ˚u. Shlukován´ı, kdy je kaˇzd ý prvek spojen s právˇe jedn´ım shlukem, naz ýváme disjunktn´ı. Naopak, pokud prvek (nebo jeho ˇcásti) m ˚uˇze náleˇzet v´ıce shluk ˚um, mluv´ıme o pˇrekrývaj´ıc´ım se shlukován´ı.

Algoritmy, které vytváˇrej´ı disjunktivn´ı shluky oznaˇcujeme jako hrubé (hard clustering algorithms), algoritmy tvoˇr´ıc´ı pˇrekr ývaj´ıc´ı se shluky oznaˇcujeme jako jemné (soft cluste-ring algorithms).

Dalˇs´ım kritériem je fakt, zda shluky vytváˇrej´ı urˇcitou hierarchii, nebo ne. Metody, které tvoˇr´ı plochou mnoˇzinu shluk ˚u bez jakékoliv explicitn´ı struktury oznaˇcujeme jako ploché shlukován´ı (flat) nebo také nehierarchické shlukován´ı. Tyto algoritmy jsou nedeter-ministické a jako vstup vyˇzaduj´ı specifikaci poˇcetu vytváˇren ých shluk ˚u.

V ýstupem hierarchick ých algoritm ˚u jsou hierarchie shluk ˚u (dendrogramy) - takové v ýstupy maj´ı vˇetˇs´ı informaˇcn´ı hodnotu, neˇz jsou v ýstupy plochého shlukován´ı. U tohoto typu algoritm ˚u nen´ı vyˇzadována specifikace poˇctu v ýstupn´ıch shluk ˚u a vˇetˇsina z nich se chová deterministicky. Tento fakt je bohuˇzel vykoupen niˇzˇs´ı efektivitou (sloˇzitost tˇechto algoritm ˚u je nejménˇe kvadratická, zat´ımco ploché shlukován´ı má lineárn´ı sloˇzitost).

3.7.2 Implementace shlukov ´an´ı v SQL Serveru 2008

SQL Server 2008 má pro shlukové metody dolován´ı dat dvˇe metody - EM shlukován´ı, (která se ˇrad´ı mezi jemné metody) a metodu K-pr ˚umˇer ˚u (spadaj´ıc´ı mezi metody hrubé).

3.7.2.1 EM shlukov án´ı EM shlukován´ı je v SQL Serveru 2008 pouˇz´ıvána jako v ýchoz´ı shlukovac´ı metoda - oproti metodˇe K-pr ˚umˇer ˚u poskytuje nˇekolik v ýhod. Jde zejména o jeho nezávislost na limitech pamˇeti, schopnost pouˇz´ıvat pouze-dopˇredné kurzory 2 a pˇrekonán´ı zp ˚usob ˚u vzorkován´ı. Tento algoritmus je nav´ıc pouze ”jednopr ˚uchodov ý”.

Algoritmus provád´ı iterativn´ı tˇr´ıben´ı dat ze vstupn´ıho shlukového modelu a provˇeˇruje v ýˇsi pravdˇepodobnosti, ˇze dan ý datov ý bod náleˇz´ı jednotliv ým shluk ˚um (coˇz m ˚uˇze vést k nepˇresnostem pˇri sumarizaci - body mohou b ýt redundantnˇe zapoˇc´ıtány pro kaˇzd ý shluk, ve kterém jsou obsaˇzeny. V ýsledky dolovac´ıho modelu jsou tomu vˇsak pˇrizp ˚usobeny). Algoritmus konˇc´ı ve chv´ıli, kdy pravdˇepodobnostn´ı model odpov´ıdá skuteˇcn ým dat ˚um.

2_{Jde o nejrychlejˇs´ı updatovateln ý typ kurzoru v SQL Serveru 2008. Podporuje pouze dopˇredn ý sériov ý}

pˇr´ıstup k záznam ˚um. D´ıky toho nen´ı moˇzné pˇristupovat k záznam ˚um, které jiˇz byly kurzorem ”pˇrejety”. Pouˇzit´ı tohoto typu kurzoru je opodstatnˇené pˇredevˇs´ım v pˇr´ıpadech, kdy je nejvyˇsˇs´ı prioritou rychlost vy-hledáván´ı a m´ıra vyuˇzit´ı pamˇet’ového prostoru.

(24)

Pokud jsou za bˇehu algortimu vygenerovány prázdné shluky, pˇr´ıpadnˇe shluky, které obsahuj´ı menˇs´ı mnoˇzstv´ı datov ých bod ˚u neˇz je stanoven ý práh, dojde k ”pˇresazen´ı”tˇechto shluk ˚u a EM algoritmus je spuˇstˇen znovu.

V ýsledkem aplikace této metody je souhrn pravdˇepodobnost´ı pˇr´ısluˇsnosti vˇsech dvo-jic datov ý bod - shluk. Kaˇzd ý bod tedy de facto náleˇz´ı do vˇsech shluk ˚u modelu, ovˇsem pro r ˚uzné shluky s r ˚uznou pravdˇepodobnost´ı.

SQL Server 2008 nab´ız´ı dva typy EM shlukován´ı: ˇskálovatelné (scalable EM) a neˇská-lovatelné (non-scalable EM). Pˇri pouˇzit´ı v ýchoz´ıho nastaven´ı algoritmu ˇskáneˇská-lovatelného shlukován´ı je pro poˇcáteˇcn´ı sken pouˇzito prvn´ıch 50,000 záznam ˚u. V pˇr´ıpadˇe, ˇze je sken úspˇeˇsn ý, jsou pro model pouˇzita tato data - pokud ne, je naˇcteno dalˇs´ıch 50,000 záznam ˚u. Tato verze EM shlukován´ı pouˇz´ıvá lokáln´ı buffer a je tedy schopna provádˇet ite-race rychleji neˇz neˇskálovatelná verze EM shlukován´ı (rozd´ıl v rychlosti m ˚uˇze b ýt aˇz trojnásobn ý). Ve vˇetˇsinˇe pˇr´ıpad ˚u nav´ıc nedocház´ı ke sn´ıˇzen´ı kvality v ýsledného modelu. V pˇr´ıpadˇe, kdy je pouˇzito neˇskálovatelné EM shlukován´ı je naˇctena velá mnoˇzina záznam ˚u, coˇz umoˇz ˇnuje zv ýˇsit pˇresnost shlukovac´ı metody, nicménˇe mohou v ýraznˇe vzr ˚ust nároky na pamˇet’.

3.7.2.2 Metoda K-pr ˚um ˇer ˚u (K-means) Tato metoda je asi nejd ˚uleˇzitˇejˇs´ı metodou plo-chého shlukován´ı. Je pouˇz´ıvána v pˇr´ıpadech, kdy je datov ý soubor tvoˇren kvantitativn´ımi promˇenn ými.

Metoda K-pr ˚umˇer ˚u (nˇekdy téˇz tˇeˇziˇst’, viz [8]) provád´ı zaˇclenován´ı objekt ˚u ze vstupn´ıho datového souboru do pˇredem definovaného poˇctu shluk ˚u na základˇe jejich vzdálenosti od centeráln´ıch bod ˚u (shlukov ých pr ˚umˇer ˚u, nˇekdy téˇz centroid ˚u) tˇechto shluk ˚u. Jedná se o tzv. algoritmus hrubého shlukován´ı a kaˇzd ý datov ý bod je tedy zaˇclenˇen do právˇe jednoho shluku.

Uˇzivatel, zpravidla analytik, urˇc´ı v mnoˇzinˇe dat tzv. zárodeˇcné body (seed centroids), poˇcet takto vybran ých bod ˚u - centroid ˚u se uloˇz´ı do promˇenné K. Algortimus následnˇe provede v ýpoˇcty euklidovské vzdálenosti pro vˇsechny dvojice centroid - datov ý uzel. Uzel je pak um´ıstˇen do shluku náleˇzej´ıc´ımu centroidu, kterému je nejbl´ıˇze. Poté je pro kaˇzd ý existuj´ıc´ı shluk spoˇc´ıtán nov ý cenroid na základˇe zpr ˚umˇerován´ı hodnot bod ˚u náleˇzej´ıc´ıch do daného shluku a znovu se zjiˇst’uj´ı vzdálenosti vˇsech bod ˚u a následnˇe pˇr´ıpadné pˇreˇrazován´ı bod ˚u do jiného shluku. Tento postup se opakuje do té doby, do-kud docház´ı k pˇresun ˚um uzl ˚u mezi shluky.

Metoda K-pr ˚umˇer ˚u poskytuje dva zp ˚usoby vzorkován´ı mnoˇziny dat. Jde o neˇskálova-telnou metodu K-pr ˚umˇer ˚u (non-scalable K-means), která najednou naˇcte celou mnoˇzinu dat a provede jeden shlukovac´ı pr ˚uchod, a ˇskálovatelnou metodu K-pr ˚umˇer ˚u scalable k-means, která naˇcte prvn´ıch 50,000 záznam ˚u a dalˇs´ı naˇc´ıtá pouze v pˇr´ıpadˇe nutnosti.

3.7.3 Parametry pro optimalizaci shlukov ´an´ı

SQL Server poskytuje nˇekolik moˇznost´ı jak zv ýˇsit v ýkon, chován´ı a efektivitu rozho-duj´ıc´ıho DM modelu.

(25)

CLUSTERING METHOD

- Specifikuje, kterou shlukovac´ı metodu m´a algoritmus pouˇz´ıt. K dispozici jsou n´asleduj´ıc´ı:

ID Jméno metody 1 ˇSkálovatelná EM 2 Neˇskálovatelná EM

3 ˇSkálovatelná metoda K-pr ˚umˇer ˚u 4 Neˇskálovatelná metoda K-pr ˚umˇer ˚u V ýchoz´ı hodnota je 1.

CLUSTER COUNT

- Specifikuje pˇribliˇzn ý poˇcet shluk ˚u, které maj´ı b ýt algoritmem vygenerovány. Po-kud je mnoˇzstv´ı dat potˇrebné pro vytvoˇren´ı tohoto poˇctu shluk ˚u nedostateˇcné, vy-generuje algoritmus maximáln´ı moˇzn ý poˇcet shluk ˚u. Pˇri nastaven´ı tohoto parame-tru na hodnotu 0 je pro nalezen´ı ideáln´ıho poˇctu shluk ˚u pouˇzita heuristika.

V ´ychoz´ı hodnota je 10. CLUSTER SEED

- Specifikuje jádrové ˇc´ıslo, které je pouˇzito pro náhodné generován´ı shluk ˚u pro poˇcáteˇcn´ı nastaven´ı modelu.

Zmˇenou tohoto ˇc´ısla je moˇzno mˇenit zp ˚usob jak ým jsou budovány poˇcáteˇcn´ı shluky a následnˇe porovnat modely vybudované za pouˇzit´ı odliˇs ých jader.

Pokud je jádro zmˇenˇeno, ale nalezené shluky se pˇr´ıliˇs nezmˇen´ı, je model povaˇzovateln ý za relativnˇe stabiln´ı.

V ´ychoz´ı hodnota je 0. MINIMUM SUPPORT

- Specifikuje minimáln´ı poˇcet záznam ˚u, které jsou potˇreba pro vybudován´ı shluku. Pokud je poˇcet záznam ˚u ve shluku niˇzˇs´ı neˇz tot ˇc´ıslo, je shluk oznaˇcen jako prázdn ý a vyˇrazen.

Nastaven´ım tohoto ˇc´ısla na pˇr´ıliˇs vysokou hodnotu m ˚uˇze zp ˚usobit vypadnut´ı va-lidn´ıch shluk ˚u z modelu.

MODELLING CARDINALITY

- Specifikuje poˇcet vzorov ých model ˚u, které jsou zkonstruovány v pr ˚ubˇehu shlu-kovac´ıho procesu.

Sn´ıˇzen´ım poˇctu kandidátn´ıch model ˚u m ˚uˇze zv ýˇsit v ýkon v ýmˇenou za zv ýˇsen´ı ri-zika, ˇze bude ztracen dobr ý kandidátn´ı model.

(26)

STOPPING TOLERANCE

- Specifikuje hodnotu pouˇzitou pro urˇcen´ı dosaˇzen´ı konvergence a ukonˇcen´ı bu-dován´ı modelu. Konvergence je dosaˇzeno v okamˇziku, kdy celková zmˇena ve shlu-kov ých pravdˇepodobnostech je menˇs´ı neˇz pr ˚umˇer parametru STOPPING TOLERANCE dˇeleného velikost´ı modelu.

V ´ychoz´ı hodnota je 10. SAMPLE SIZE

- Specifikuje poˇcet záznam ˚u, které algoritmus pouˇzije pro kaˇzd ý pr ˚uchod (má smysl pouze v pˇr´ıpadˇe, ˇze hodnota CLUSTERING METHOD je nastavena na nˇekterou ze ˇskálovateln ých metod). Nastaven´ım na 0 budou vˇsechna data zpracována jedn´ım pr ˚uchodem. Naˇc´ıtán´ı celé mnoˇziny dat m ˚uˇze zp ˚usobit problémy s pamˇet´ı a v ýkonem. V ýchoz´ı hodnota je 50000.

MAXIMUM INPUT ATTRIBUTES

- Urˇcuje maximáln´ı poˇcet vstupn´ıch atribut ˚u, které mohou b ýt poskytnuty algo-ritmu pˇred aplikován´ım selekce rys ˚u. Nastaven´ı na 0 urˇcuje, ˇze nen´ı ˇzádné povo-lené maximum atribut ˚u.

Zvyˇsován´ı poˇctu atribut ˚u m ˚uˇze znatelnˇe sn´ıˇzit v ýkon. V ýchoz´ı hodnota je 255.

MAXIMUM STATES

- Specifikuje maximáln´ı podporovan ý poˇcet diskrétn´ıch stav ˚u na atribut. Pokud je poˇcet stav ˚u pro dan ý atribut vyˇsˇs´ı neˇz hodnota tohoto parametru, pouˇzije algorit-mus pro tento atribut ”nejobl´ıbenˇejˇs´ı”stavy a ostatn´ı stavy ignoruje.

Zv ýˇsen´ı tohoto ˇc´ısla m ˚uˇze znatelnˇe sn´ıˇzit v ýkon. V ýchoz´ı hodnota je 100.

3.7.4 Implementace sekven ˇcn´ıho shlukov ´an´ı v SQL Serveru 2008

Tato shlukovac´ı metoda je pouˇz´ıvána k anal ýze dat, která obsahuj´ı události u kter ých m ˚uˇzeme pozorovat propojen´ı skrze navazuj´ıc´ı ”dráhy”(sekvence). Jde napˇr´ıklad o poˇrad´ı v jakém vkládá klient elektronického obchodu zboˇz´ı do koˇs´ıku nebo dráhu jednotliv ých kliknut´ı uˇzivatele pˇri prohl´ıˇzen´ı webu. Algoritmus pak provád´ı shlukován´ı vstupn´ıch objekt ˚u na základˇe shody tˇechto sekvenc´ı.

Tento algoritmus je hybridem mezi shlukovac´ım EM algoritmem a anal ´yzou Mar-kovsk ´ych ˇretˇezc ˚u3_.

3

Markovsk ý ˇretˇezec je pravdˇepodobnostn´ı (stochastick ý) proces, kter ý spol ˇnuje tzv. Markovu vlastnost (tj. v kaˇzdém stavu procesu je pravdˇepodobnost pˇrechodu do dalˇs´ıch stav ˚u na dˇr´ıvˇejˇs´ıch stavech procesu nezávislá). Tento proces je definován dvˇema parametry: vektorem absolutn´ıch pravdˇepodobnost´ı a matic´ı pravdˇepodobnost´ı pˇrechodu

(27)

Specifikem této metody je pouˇzit´ı sekvenˇcn´ıch dat, tedy sled ˚u událost´ı v ˇcase, pˇr´ıpadnˇe sled ˚u pˇrechod ˚u mezi r ˚uzn ými stavy. Nejprve dojde k anal ýze pravdˇepodobnosti pˇrechod ˚u a následnˇe provede mˇeˇren´ı vzájemné odliˇsnosti, resp. vzdálenosti vˇsech existuj´ıc´ıch sek-venc´ı. Na základˇe tˇechto krok ˚u se pak vyberou sekvence vhodné jako vstupy pro shlu-kovac´ı EM algoritmus.

Poˇcet stav ˚u, které jsou pouˇzity pro z´ıskán´ı pravdˇepodobnosti souˇcasného stavu je de-finován ˇrádem Markovského ˇretˇezce. Pro kaˇzd ý Markovsk ý ˇretˇezec je urˇcena pˇrechodová matice, která obsahuje pˇrechody pro vˇsechny kombinace stav ˚u. Vzhledem k tomu, ˇze tato matice roste s pˇrib ývaj´ıc´ımi stavy exponenciálnˇe, docház´ı k rychlému nár ˚ustu poˇzadavk ˚u na pamˇet’ nutnou pro jej´ı uchován´ı a na v ýkon CPU pˇri zpracován´ı.

Shlukován´ı sleduje dva typy atribut ˚u - sekvenˇcn´ı a nesekvenˇcn´ı. Kaˇzdému shluku pˇr´ısluˇs´ı Markovsk ý ˇretˇezec, kter ý zachycuje úplnou mnoˇzinu ”cest”a dále matice, která obsahuje sekvenci pˇrechod ˚u stav ˚u a pravdˇepodobnost´ı. Bayesovo pravidlo pak v závislosti na poˇcáteˇcn´ım rozloˇzen´ı urˇc´ı pravdˇepodobnosti vˇsech atribut ˚u daného shluku, vˇcetnˇe sekvenc´ı.

MS algoritmus sekvenˇcn´ıho shlukován´ı umoˇz ˇnuje do modelu pˇridávat nesekvenˇcn´ı atributy - ty jsou pak ”pˇrim´ıchány”k sekvenˇc´ım, coˇz umoˇzn´ı pouˇzit´ı klasického shlu-kován´ı. Model sekvenˇcn´ıho shlukován´ı kaˇzdopádnˇe vede k vytvoˇren´ı mnohem vˇetˇs´ıho monoˇzstv´ı shluk ˚u, neˇz obyˇcejná shlukovac´ı metoda a proto je provádˇen tzv. shlukový rozklad (cluster decomposition), kter ý oddˇeluje shluky obsahuj´ıc´ı sekvence a shluky ob-sahuj´ıc´ı ostatn´ı atributy.

Algoritmus sekvenˇcn´ıho shlukován´ı vyˇzaduje nˇekolik hodnot. Prvn´ı hodnotou je kl´ıˇc (single key), kter ý jednoznaˇcnˇe identifikuje dan ý záznam.

Druhou hodnotou je samotná sekvence - jde o vhn´ızdˇenou tabulku obsahuj´ıc´ı identi-fikátory sloupc ˚u sekvenc´ı (mus´ı j´ıt o porovnateln ý datov ý typ - napˇr ˇc´ıseln ý identifikátor webové stránky, textov ý ˇretˇezec, atd.). Pro kaˇzdou sekvenci je povolen právˇe jeden iden-tifikátor a pro kaˇzd ý model m ˚uˇze existovat pouze jeden typ sekvenc´ı.

Tˇret´ı, nepovinnou, hodnotou jsou nesekvenˇcn´ı atributy (m ˚uˇzou obsahovat vhn´ızdˇen´e sloupce).

3.7.5 Parametry pro optimalizaci sekven ˇcn´ıho shlukov ´an´ı

CLUSTER COUNT

- Specifikuje pˇribliˇzn ý poˇcet shluk ˚u, které maj´ı b ýt algoritmem vytvoˇreny. Pokud nem ˚uˇze b ýt u dat toto mnoˇzstv´ı shluk ˚u vytvoˇreno, vytvoˇr´ı algoritmus tolik shluk ˚u, kolik je moˇzné. Pˇri nastaven´ı tohoto parametru na 0 je pro nalezen´ı poˇctu budo-van ých shluk ˚u pouˇzita heuristika.

- Specifikuje minimáln´ı poˇcet záznam ˚u potˇrebn ých pro vytvoˇren´ı shluku. V ýchoz´ı hodnota je 10.

(28)

MAXIMUM SEQUENCE STATES

- Specifikuje maximáln´ı poˇcet stav ˚u, které m ˚uˇze sekvence m´ıt. Nastaven´ı tohoto ˇc´ısla na hodnotu vyˇsˇs´ı neˇz 100 m ˚uˇze zp ˚usobit, ˇze algoritmus vytvoˇr´ı model, kter ý ebude poskytovat smysluplné informace.

V ´ychoz´ı hodnota je 64. MAXIMUM STATES

- Specifikuje maximáln´ı algoritmem podporovan ý poˇcet stav ˚u pro nesekvenˇcn´ı atri-but. Pokud je poˇcet stav ˚u nesekvenˇcn´ıho atributu vyˇsˇs´ı neˇz povolené maximum, pouˇzije algoritmus ”nejpopulárnˇejˇs´ı”stavy a chová se, jakoby zb ývaj´ıc´ı stavy scházely (missing).

3.8 Rozhodovac´ı stromy

Princip algoritmu rozhodovac´ıch strom ˚u je ˇsiroce rozˇs´ıˇren i v ˇradˇe ne-informatick ých vˇedn´ıch discipl´ın (zejména napˇr. v biologii). V podstatˇe jde o postupné rozdˇelován´ı jed-notliv ých prvk ˚u do kateogori´ı, na základˇe jejich parametr ˚u.

Konstrukce stromu prob´ıhá pomoc´ı metody rozdˇel a panuj (divide and conquer) - vstupn´ı data se rozdˇeluj´ı na stále menˇs´ı podmnoˇziny, ve kter ých pˇrevládaj´ı prvky se stejnou hod-notou daného parametru. Tento postup je téˇz oznaˇcován jako top down induction of decision trees (indukce rozhodovac´ıho stromu shora dol ˚u - zkrácenˇe TDIDT)[4].

Obecné schéma takového algoritmu je k dispozici v publikaci [4]: algoritmus TDIDT:

1. Zvol jeden atribut jako koˇren d´ılˇc´ıho stromu.

2. Rozdˇel data v tomto uzlu na podmnoˇziny podle hodnot zvolen´eho atributu a pˇridej uzel pro kaˇzdou podmnoˇzinu.

3. Existuje-li uzel, pro kter´y nepatˇr´ı vˇsechna data do t´eˇze tˇr´ıdy, pro tento uzel opakuj postup od bodu 1, jinak skonˇci.

Podstata správného pr ˚ubˇehu algoritmu spoˇc´ıvá ve zp ˚usobu v ýbˇeru atributu, kter ý se pouˇzije pro vˇetven´ı. Za t´ımto úˇcelem jsou zpravidla pouˇz´ıvány techniky napˇr. z obor ˚u teorie informace a pravdˇepodobnosti (Shannonova entropie, informaˇcn´ı zisk, pomˇern ý informaˇcn´ı zisk, vzdálenost mezi atributem a tˇr´ıdou [5], atd.).

3.8.1 Implementace rozhodovac´ıch strom ˚u v SQL Serveru 2008

Systém SQL Server 2008 podporuje tvorbu rozhodovac´ıch strom ˚u jak z diskrétn´ıch, tak ze spojit ých atribut ˚u. Procesy tvorby a správy stromu obstarává hybridn´ı algoritmus.

(29)

MSDT algoritmus uˇc´ı Bayseovskou s´ıt’4 _{pomoc´ı pˇredchoz´ıch znalost´ı a statistick ´ych}

dat. ˇCást která obsluhuje metodiku v ýbˇeru vhodn ých dat pro uˇcen´ı je zaloˇzena na tes-tován´ı podobnostn´ı rovnosti (likelihood equivalence).

Kaˇzd ý pˇr´ıpad pˇreb´ırá pˇrednostn´ı Bayesovskou s´ıt’ a m´ıru jej´ı d ˚uvˇeryhodnosti. S pouˇzit´ım této s´ıtˇe algoritmus vypoˇc´ıtá pravdˇepodobnost a posteriori s´ıt’ov ých struktur a vybere ty s nejvyˇsˇs´ı hodnotou.

Metoda pro v ýpoˇcet nejlepˇs´ıho stromu je vybrána na základˇe zadané úlohy. M ˚uˇze j´ıt o lineárn´ı regresi, klasifikaci nebo asociaˇcn´ı anal ýzu. Tvar stromu daného modelu je závisl ý na ohodnocovac´ı metodˇe a dalˇs´ıch pouˇzit ých parametrech (jejich zmˇena m ˚uˇze ovlivnit rozdˇelen´ı uzl ˚u).

Proces tvorby strom ˚u vyuˇz´ıvá pro urˇcen´ı nejhodnotnˇejˇs´ıch atribut ˚u tzv. selekce rys ˚u -ta zárove ˇn vyˇrazuje ˇr´ıdce zastoupené atributy. Jednotlivé hodnoty jsou nav´ıc um´ıstˇeny do ”koˇs ˚u”, které jsou pro urychlen´ı v ýkonu zpracovávány jako celek.

Strom je budován na základˇe rozpoznáván´ı korelac´ı mezi vstupy a v ýstupy. Po anal ýze vˇsech atribut ˚u je vybrán ten, podle nˇejˇz je moˇzno v ýstupy nejlépe rozdˇelit. M´ısto oddˇelen´ı je urˇceno rovnic´ı poˇc´ıtaj´ıc´ı informaˇcn´ı zisk - atribut s nejvyˇsˇs´ım uˇzitkem je pouˇzit pro rozdˇelen´ı hodnot podmnoˇziny, na které jsou rekurentnˇe analyzovány stejn ým procesem tak dlouho, dokud je strom moˇzno dále vˇetvit.

V pˇr´ıpadˇe, ˇze jsou prediktibiln´ı atributy i vstupy diskrétn´ı, provád´ı se v ýpoˇcet vy-tvoˇren´ım matice a následn ým ohodnocen´ım kaˇzdé jej´ı bu ˇnky.

Pokud jsou atributy diskrétn´ı, ale vstupy jsou spojité, je provedena automatická dis-kretizace vˇsech takov ých vstup ˚u.

Pro atributy diskr´etn´ı povahy, je pouˇzit klasifikaˇcn´ı postup.

V pˇr´ıpadˇe atribut ˚u obsahuj´ıc´ıch spojit´e hodnoty je pro indikaci ˇrezu pouˇzita line´arn´ı regrese.

3.8.2 Line ´arn´ı regrese

Lineárn´ı regrese je metoda pouˇz´ıvaná pro nacházen´ı lineárn´ıch vztah ˚u mezi závislou a nezávislou promˇennou. Regresn´ı kˇrivka, která tuto relaci vyjadˇruje, je definována tzv. re-gresn´ı rovnic´ı y = ax + b. Kde y pˇredstavuje v ýstupn´ı promˇennou, x vstupn´ı promˇennou a a a b jsou nastavitelné parametry. Tyto parametry udávaj´ı odchylku daného prvku od ideáln´ı kˇrivky.

Z technického hlediska je algoritmus lineárn´ı regrese úpravou algoritmu rozhodo-vac´ıch strom ˚u, optimalizovanou pro modelován´ı párov ých spojit ých atribut ˚u. Pro tento úˇcel jsou parametry algoritmu nastaveny tak, aby zamezily r ˚ustu stromu a data se tak drˇzela v jediném uzlu - strom tedy netvoˇr´ı ˇzádné vˇetve.

4_{Bayesovská s´ıt’ je pravdˇepodobnostn´ı model reprezentovan ý acyklick ým orientovan ým grafem. Tento}

model vyjadˇruje podm´ınˇenou závislost náhodn ých promˇenn ých (pozorovatelné veliˇciny, skryté promˇenné, neznámé parametry, atd.). Hrany zde reprezentuj´ı hodnotu podm´ınˇenou závislost - uzly, které nejsou pˇrilehlé nevykazuj´ı ˇzádnou závislost.

Uzel je spojen s pravdˇepodobnostn´ı funkc´ı, jej´ımiˇz vstupy jsou pˇr´ısluˇsné vstupy pro rodiˇcovsk ý uzel a v ýstupem pravdˇepodobnost promˇenné reprezentované vlastn´ım uzlem [9].

(30)

Této vlastnosti je dosaˇzeno t´ım, ˇze parametr MINIMUM LEAF CASES je nastaven na vyˇsˇs´ı nebo stejnou hodnotu, jako je celkov ý poˇcet záznam ˚u, které algoritmus vyuˇz´ıvá k trénován´ı modelu. Algoritmus tak nikdy nevytvoˇr´ı vˇetven´ı a vykonává tedy lineárn´ı regresi.

Lineárn´ı regrese pouˇz´ıvá pro selekci rys ˚u metodu sk óre zaj´ımavosti, je tomu tak proto, ˇze model podporuje pouze spojité hodnoty.

Tato metoda nacház´ı vyuˇzit´ı pˇri pˇredv´ıdán´ı v ývoje trend ˚u na základˇe obchodn´ıch dat, predikce v ýtˇeˇzku chemick ých reakc´ı, kalibraci mˇeˇr´ıc´ıch systém ˚u, atd.

3.8.3 Parametry pro optimalizaci rozhodovac´ıch strom ˚u

V ´ykonnost algoritmu metody rozhodovac´ıch strom ˚u je moˇzn´e ovlivnit upˇresnˇen´ım tˇechto parametr ˚u:

COMPLEXITY PENALTY

- Kontroluje r ˚ust rozhodovac´ıho stromu. N´ızká hodnota zvyˇsuje poˇcet ˇstˇep ˚u, vy-soká jej naopak sniˇzuje. V ýchoz´ı hodnota je zaloˇzena na poˇctu atribut ˚u konkrétn´ıho modelu:

- Pro 1 aˇz 9 atribut ˚u je výchoz´ı hodnota 0,5. - Pro 10 aˇz 99 atribut ˚u je výchoz´ı hodnota 0,9. - Pro 100 a v´ıce atribut ˚u výchoz´ı hodnota 0,99. FORCE REGRESSOR

- Pˇrikazuje algoritmu pouˇz´ıt uˇcen´e sloupce jako regresory, bez ohledu na d ˚uleˇzitost sloupc ˚u urˇcenou algoritmem. Tento parametr je pouˇz´ıv´an pouze pro stromy predi-kuj´ıc´ı atributy se spojitou hodnotou.

- Urˇcuje maximáln´ı poˇcet vstupn´ıch atribut ˚u které mohou b ýt poskytnuty algo-ritmu pˇred aplikován´ım selekce rys ˚u. Nastaven´ı na 0 selekci rys ˚u pro vstupn´ı atri-buty vyˇrad´ı.

MAXIMUM OUTPUT ATTRIBUTES

- Urˇcuje maximáln´ı poˇcet v ýstupn´ıch atribut ˚u které mohou b ýt poskytnuty algo-ritmu pˇred aplikován´ım selekce rys ˚u. Nastaven´ı na 0 selekci rys ˚u pro v ýstupn´ı atributy vyˇrad´ı.

- Urˇcuje minimáln´ı poˇcet listov ých hodnot potˇrebn ých pro vytvoˇren´ı ˇstˇepu v roz-hodovac´ım stromu.

(31)

Tuto hodnotu je vhodné zv ýˇsit, pokud je mnoˇzina zpracovávan ých dat pˇr´ıliˇs velká - vyhneme se tak pˇretrénován´ı (overtraining).

V ´ychoz´ı hodnota je 10. SCORE METHOD

ID Jm´eno 1 Entropy

2 Bayesian with K2 Prior

3 Bayesian Dirichlet Equivalent (BDE) Prior(v ´ychoz´ı) SPLIT METHOD

Urˇcuje metodu pouˇzitou pro rozˇstˇepen´ı uzlu. K dispozici jsou n´asleduj´ıc´ı moˇznosti. ID N´azev

1 Binárn´ı: Indikuje, ˇze strom má b ýt rozdˇelen do dvou vˇetv´ı, nezávisle na ˇc´ıselné hodnotˇe atributu.

2 Kompletn´ı: Indikuje, ˇze strom m ˚uˇze vytváˇret tolik ˇstˇep ˚u, kolik má atribut hodnot. 3 Oboj´ı: Specifikuje, ˇze sluˇzby anal ýzy (Analysis Services) mohou rozpoznat, kte-rou z rozdˇelovac´ıch metod je vhodné pouˇz´ıt pro z´ıskán´ı nejlepˇs´ıch v ýsledk ˚u. V ýchoz´ı hodnota je 3

3.9 Naivn´ı Bayesova metoda

Bayes ˚uv teorém je pojem z teorie pravdˇepodobnosti (pojmenován je po Thomasu Baye-sovi, kter ý jej poprvé rozebral ve svém pojednán´ı An Essay towards solving a Problem in the Doctrine of Chances ). Toto tvrzen´ı ukazuje, jak jedna podm´ınˇená pravdˇepodobnost závis´ı na jej´ı inverzi.

P (A | B) = P (B | A)P (A) P (B)

Zastoupen´ı jednotliv ých hypotéz, je vyjádˇreno tzv. apriorn´ı pravdˇepodobnost´ı P(A). Zmˇenu pravdˇepodobnosti hypotézy v pˇr´ıpadˇe nastán´ı události B pak vyjadˇruje podm´ınˇená prav-dˇepodobnost P (B | A) (téˇz aposteriorn´ı pravprav-dˇepodobnost). Pravprav-dˇepodobnost evidence je vyjádˇrena veliˇcinou P(B).

Základn´ım pˇredpokladem naivn´ıho bayesovského klasifikátoru je pˇredpoklad, ˇze pˇri platnosti hypotézy B jsou evidence A podm´ınˇenˇe nezávislé.

Bayesovská klasifikace se pouˇz´ıvá napˇr. pˇri filtrován´ı spamu z E-mailov ých schránek, klasifikaci dokument ˚u, nebo pravdˇepodobnosti bonity klient ˚u bank, a pod.

3.9.1 Implementace naivn´ı Bayesovy metody v SQL Serveru 2008

Naivn´ı Bayesova metoda (slovo naivn´ı je zde pouˇzito proto, ˇze nebere v úvahu také pouze potenciálnˇe existuj´ıc´ı závislosti) je klasifikaˇcn´ı algoritmus pouˇz´ıvan ý pro predik-tivn´ı modelován´ı.

(32)

Algortimus vycház´ı z Bayesova teorému a je urˇcen pˇredevˇs´ım pro rychlé generován´ı dolovac´ıch model ˚u a zjiˇst’ován´ı vztah ˚u mezi vstupn´ımi a predikovan ými sloupci. Následnˇe je vhodné na základˇe v ýsledk ˚u aplikovat dalˇs´ı, nároˇcnˇejˇs´ı a efektivnˇejˇs´ı metody.

Algortimus poˇc´ıtá pravdˇepodobnost vˇsech stav ˚u pro kaˇzd ý vstupn´ı sloupec. V ýstupem je mnoˇzina vˇsech moˇzn ých stav ˚u predikovaného sloupce.

Pro pˇr´ıpadné grafické znázornˇen´ı je moˇzno pouˇz´ıt nástroj Microsoft Naive Bayes Viewer.

3.9.2 Parametry pro optimalizaci naivn´ı Bayesovy metody

- Urˇcuje maximáln´ı poˇcet vstupn´ıch atribut ˚u, které mohou b ýt poskytnuty algo-ritmu pˇred aplikován´ım selekce rys ˚u. Nastaven´ı na 0 selekci rys ˚u pro vstupn´ı atri-buty vyˇrad´ı.

MAXIMUM OUTPUT ATTRIBUTES

- Urˇcuje maximáln´ı poˇcet v ýstupn´ıch atribut ˚u, které mohou b ýt poskytnuty algo-ritmu pˇred aplikován´ım selekce rys ˚u. Nastaven´ı na 0 selekci rys ˚u pro v ýstupn´ı atri-buty vyˇrad´ı.

MINIMUM DEPENDENCY PROBABILITY

- Specifikuje minimáln´ı pravdˇepodobnost závislosti mezi vstupn´ımi a v ýstupn´ımi atributy. Tato hodnota je pouˇz´ıvána k nastavován´ı limit ˚u velikosti obsahu genero-van ým t´ımto algoritmem. Tato vlastnost nab ýva hodnot od 0 do 1. Vyˇsˇs´ı hodnoty sniˇzuj´ı poˇcet atribut ˚u v modelu.

V ´ychoz´ı hodnota je 0,5. MAXIMUM STATES

- Specifikuje maximáln´ı podporovan ý poˇcet diskrétn´ıch stav ˚u na atribut. Pokud je poˇcet stav ˚u pro dan ý atribut vyˇsˇs´ı neˇz hodnota tohoto parametru, pouˇzije algorit-mus pro tento atribut ”nejobl´ıbenˇejˇs´ı”stavy a ostatn´ı stavy ignoruje.

V ´ychoz´ı hodnota je 100. 3.10 Neuronov ´e s´ıt ˇe

Neuronové s´ıtˇe jsou zhruba 60 let star ým v ýpoˇcetn´ım (respektive matematick ým) mo-delem. Pˇredlohou tohoto konceptu jsou biologické neuronové s´ıtˇe. Prvn´ı matematick ý návrh vytvoˇril v roce 1943 matematik Walter Pitts ve spolupráci s neurofyziologem Warre-nem McCullochem.

Na základˇe tohoto modelu vytvoˇrili prvn´ı elektronick ý obvod, kter ý simuloval jed-noduchou neuronovou s´ıt’. V roce 1949 vydal Donald Hebb svou práci ”The Organization