Clustering of objects with spatial uncertainty applied on a warehouse model

(1)

ELEKTROTEHNIČKI FAKULTET OSIJEK

Mirko Köhler

Razvrstavanje objekata s prostornom neodr eđenosti

primijenjeno na modelu skladišta

Doktorska disertacija

(2)

Doktorska disertacija izrađena je na Elektrotehničkom fakultetu Osijek, Sveučilišta J. J. Strossmayera u Osijeku.

Mentor: doc.dr.sc. Krešimir Nenadić

Disertacija ima 108 stranica

(3)

1. Prof.dr.sc. Željko Hocenski, redoviti profesor,

Elektrotehnički fakultet Sveučilišta J. J. Strossmayera u Osijeku 2. Doc.dr.sc. Krešimir Nenadić,

Elektrotehnički fakultet Sveučilišta J. J. Strossmayera u Osijeku 3. Prof.dr.sc. Mario Žagar, redoviti profesor,

Fakultet elektronike i računarstva Sveučilišta u Zagrebu

Povjerenstvo za obranu doktorske disertacije

1. Prof.dr.sc. Željko Hocenski, redoviti profesor,

Elektrotehnički fakultet Sveučilišta J. J. Strossmayera u Osijeku 2. Doc.dr.sc. Krešimir Nenadić,

Elektrotehnički fakultet Sveučilišta J. J. Strossmayera u Osijeku 3. Prof.dr.sc. Mario Žagar, redoviti profesor,

Fakultet elektronike i računarstva Sveučilišta u Zagrebu 4. Doc.dr.sc. Damir Blažević,

Elektrotehnički fakultet Sveučilišta J. J. Strossmayera u Osijeku 5. Doc.dr.sc. Alfonzo Baumgartner,

Elektrotehnički fakultet Sveučilišta J. J. Strossmayera u Osijeku

(4)

Zahvale

Zahvaljujem se mentoru, doc.dr.sc. Krešimiru Nenadiću, na odličnoj suradnji i podršci pri izradi ove doktorske disertacije. Hvala na vremenu, savjetima, konstruktivnim kritikama i svim prijedlozima.

Zahvaljujem se prof.dr.sc. Franji Joviću, svom dugogodišnjem voditelju na poslijediplomskom doktorskom studiju, na velikoj pomoći tijekom studija i vjeri da ću uspješno završiti upisani studij.

Zahvaljujem se svom nastavnom i nenastavnom osoblju Elektrotehničkog fakulteta na podršci i pomoći koju su mi pružili, ne samo pri izradi disertacije, nego i tijekom rada u nastavi i znanstvenim istraživanjima.

Posebno se zahvaljujem prijatelju dr. sc. Ivici Lukiću na svakodnevnoj suradnji u znanstvenom istraživanju i akademskim obvezama.

Velika zahvala majci Lidiji i ocu Zlatku na bezuvjetnoj potpori i pomoći koju su mi pružili tijekom cijelog životnog i obrazovnog puta. Također, hvala i ostaloj obitelji na potpori koju su mi pružali tijekom mojeg akademskog obrazovanja.

Mojoj supruzi Luciji najveća hvala. Bila mi je motiv i najveća podrška u trenucima kada se problem činio prevelik i nerješiv.

(5)

Sadržaj

SADRŽAJ ... 5

1. UVOD ... 1

2. ANALIZA I RAZVRSTAVANJE PODATAKA ... 5

2.1. Dubinska analiza podataka ... 5

2.2. Razvrstavanje ... 6

2.2.1. Proces razvrstavanja ... 8

2.2.2. Podjela razvrstavanja po modelima ... 9

2.2.3. Podaci s nedostacima ... 11

2.3. Sličnost i različitost kao mjere pri razvrstavanju objekata ...11

2.3.1. Matrica blizine ... 12

2.3.2. Graf blizine ... 13

2.3.3. Matrica razasutosti ... 13

2.3.4. Matrica kovarijanci ... 14

2.3.5. Udaljenost kao mjera brojčanih podataka ... 15

2.3.6. Sličnost kao mjera brojčanih podataka ... 18

2.4. Sličnost i različitost kao mjera između grozdova ...19

2.5. Metode za razvrstavanje objekata oko središnje točke ...21

2.5.1. k-means metoda ... 21

2.5.2. Kontinuirana k-means metoda ... 24

2.5.3. Usporedna k-means metoda ... 24

2.5.4. Razvrstana k-means metoda ... 25

2.5.5. x-means metoda ... 25

2.5.6. k-harmonijska means metoda ... 26

2.5.7. Ostale metode razvrstavanja oko središnje točke ... 27

2.6. Metode za razvrstavanje objekata prema gustoći ...28

(6)

3.1. Razvrstavanje objekata s prostornom neodređenosti pomoću uk-means metode ...35

3.2. MinMax metoda za odbacivanje središta grozdova ...37

3.3. Metoda za odbacivanje središta grozdova pomoću Voronojevih dijagrama ...41

3.4. SPP metoda za odbacivanje središta grozdova ...46

3.5. Usporedba postojećih metoda ...50

4. RAZVRSTAVANJE OBJEKATA KOMBINIRANOM METODOM ... 52

4.1. Prilagođavanje postojećih metoda trodimenzionalnom prostoru...53

4.1.1. MinMax metoda u ℝ3 geometrijskom prostoru ... 53

4.1.2. SPP metoda kao temelj za metodu simetralnih ravnina ... 54

4.2. Kombinirana metoda razvrstavanja objekata s trodimenzionalnom prostornom neodređenosti ..58

4.3. Usporedba i analiza rezultata pokusa ...59

4.3.1. Analiza rezultata pokusa s osnovnim skupom parametara ... 60

4.3.2. Analiza rezultata pokusa s promjenom broja objekata ... 62

4.3.3. Analiza rezultata pokusa s promjenom maksimalne duljine stranice MBB-a ... 64

4.3.4. Analiza rezultata pokusa s promjenom broja uzoraka u MBB-u ... 67

4.3.5. Analiza rezultata pokusa s promjenom broja grozdova ... 69

4.4. Zaključak o provedenim pokusima ...73

5. MODEL SKLADIŠTA ZA VERIFIKACIJU RAZVIJENE NOVE METODE RAZVRSTAVANJA ... 74

5.1. Logistika skladišta ...75

5.1.1. Razne podjele skladišta ... 77

5.1.2. Skladišni prostor ... 79

5.1.3. Pozicioniranje pojedine robe u skladištu ... 80

5.2. O modelu skladišta ...82

(7)

5.3.2. Proces razvrstavanja pri normalnom opterećenju ... 87

5.3.3. Proces razvrstavanja pri povećanom opterećenju ... 89

6. PRILAGOĐAVANJE MODELA SKLADIŠTA S CILJEM OPTIMIZACIJE POSLUŽIVANJA ... 92

6.1. Prilagođeni model skladišta ...92

6.2. Proces razvrstavanja u prilagođenom modelu skladišta ...94

6.2.1. Proces razvrstavanja pri normalnom opterećenju ... 94

6.2.2. Proces razvrstavanja pri povećanom opterećenju ... 96

6.3. Usporedba rezultata klasičnom i prilagođenog modela skladišta ...97

6.3.1. Usporedba rezultata pri normalnom opterećenje ... 97

6.3.2. Usporedba rezultata pri povećanom opterećenju ... 99

7. ZAKLJUČAK... 100

8. LITERATURA ... 102

SAŽETAK ... 106

ABSTRACT ... 107

(8)

Popis oznaka

ED očekivana udaljenost

MBB minimalna granična kutija MBR minimalni granični pravokutnik

NED broj računanja očekivane udaljenosti po objektu u svakoj iteraciji PDF funkcija gustoće vjerojatnosti

PS početno stanje

SPP simetralna metoda razvrstavanja

(9)

Popis slika

Slika 2.1: Grozdovi dvodimenzionalnih objekata. Slika 2.2: Proces razvrstavanja podataka. Slika 2.3: Modeli razvrstavanja podataka.

Slika 2.4: Raščlanjujući modeli razvrstavanja podataka (a) oko središta (b) prema gustoći. Slika 2.5: Hijerarhiski modeli razvrstavanja podataka.

Slika 2.6: Skup točaka u dvodimenzionalnom prostoru za različite vrijednosti varijable 𝑝. Slika 2.7: Udaljenost između najbližih (a) i najudaljenijih (b) objekata dvaju susjednih grozdova.

Slika 3.1: Objekti s prostornom neodređenosti koji su opisani minimalnim graničnim područjem: (a) u 2D prostoru (b) u 3D prostoru.

Slika 3.2: Objekt s dvodimenzionalnom prostornom neodređenosti opisan MBR-om i podijeljen na 400 uzoraka.

Slika 3.3: Minimalna i maksimalna udaljenost između središta grozda 𝑐𝑗 i objekt s prostornom neodređenosti 𝑜𝑖 prikazanog pomoću minimalnog graničnog pravokutnika.

Slika 3.4: Objekt s prostornom neodređenosti 𝑜𝑖 prikazan pomoću modela sa: (a) jednom, (b) pet, (c) devet (d) jednom, (e) trinaest i (f) dvadestet jednom sidrišnom točkom.

Slika 3.5: Konstrukcija 𝑉𝑐𝑝 ćelije u ℝ2 geometriskom prostoru.

Slika 3.6: Prikaz odbacivanja središta grozdova pomoću Voronojevih dijagrama 2D prostoru.

Slika 3.7: Prikaz uspješnog odbacivanja središta grozda𝑐𝑗 pomoću algoritma Voronojevih dijagrama za (a) prvi podslučaj i (b) drugi podslučaj kada su 𝑐𝑝≠ 𝑐𝑗.

Slika 3.8: Podjela područja neodređenosti na dva dijela.

Slika 3.9: Podjela ℝ2 prostora simetralama između središta grozdova 𝑐𝑝 i 𝑐𝑞 gdje se objekt 𝑜𝑖 nalazi (a) iznad i (b) ispod simetrale.

Slika 4.1:Voronojeve ćelije u 3D prostoru s (a) tri i (b) deset središta grozdova.

Slika 4.2: Minimalna i maksimalna udaljenost između središta grozda 𝑐𝑗 i objekt s prostornom neodređenosti 𝑜𝑖 prikazanog pomoću minimalne granične kutije.

Slika 4.3: Prikaz ℝ3prostora podjeljenog simetralnom ravninom između središta grozdova 𝑐𝑝 i 𝑐𝑞. Slika 4.4: Grafički prikaz vremena trajanja razvrstavanja za sve tri metode pri promjeni broja objekata.

Slika 4.5: Grafički prikaz omjera vremena izvođenja MinMax i Kombinirane metode pri promjeni broja objekata. Slika 4.6: Grafički prikaz omjera vremena izvođenja metode simetralnih ravnina i Kombinirane metode pri promjeni broja objekata.

Slika 4.7: Grafički prikaz vremena trajanja razvrstavanja za sve tri metode pri promjeni maksimalne duljine stranice 𝑎 MBB-a.

Slika 4.8: Prikaz promjene NED-a za sve tri metode pri promjeni maksimalne duljine stranice MBB-a.

Slika 4.9: Grafički prikaz omjera vremena izvođenja MinMax i Kombinirane metode pri promjeni maksimalne duljine stranice MBB-a.

Slika 4.10: Grafički prikaz omjera vremena izvođenja metode simetralnih ravnina i Kombinirane metode pri promjeni maksimalne duljine stranice MBB-a.

(10)

Slika 4.11: Grafički prikaz omjera NED-a za MinMax i Kombiniranu metodu pri promjeni maksimalne duljine stranice MBB-a.

Slika 4.12: Grafički prikaz vremena trajanja razvrstavanja za sve tri metode pri promjeni broja uzoraka 𝑠 koji se nalaze unutar MBB-a.

Slika 4.13: Grafički prikaz omjera vremena izvođenja MinMax i Kombinirane metode pri promjeni broja uzoraka unutar MBB-a.

Slika 4.14: Grafički prikaz omjera vremena izvođenja metode simetralnih ravnina i Kombinirane metode pri promjeni broja uzoraka unutar MBB-a.

Slika 4.15: Grafički prikaz vremena trajanja razvrstavanja za sve tri metode pri promjeni broja grozdova. Slika 4.16: Grafički prikaz omjera vremena izvođenja MinMax i Kombinirane metode pri promjeni broja grozdova.

Slika 4.17: Grafički prikaz omjera vremena izvođenja metode simetralnih ravnina i Kombinirane metode pri promjeni broja grozdova.

Slika 4.18: Prikaz promjene NED-a za sve tri metode pri promjeni broja grozdova. Slika 5.1: Tri tipa razmještaja u skladištu.

Slika 5.2: Uloga skladišta u logističkom lancu. Slika 5.3: Euro paleta.

Slika 5.4: Tlocrtni prikaz i dimenzije skladišta. Slika 5.5: Skica jednog paletnog regala s tri nivoa. Slika 5.6: Primjer palete s 36 i 1728 paketa. Slika 5.7: Početni razmještaj poslužitelja.

Slika 5.8: Grafički prikaz vremena trajanja razvrstavanja za PS 2 do 12 poslužitelja. Slika 5.9: Omjer vremena trajanja razvrstavanja za MinMax i Kombiniranu metodu. Slika 5.10: Grafički prikaz NED-a za PS 2 do 12 poslužitelja.

Slika 5.11: Razmještaj poslužitelja u skladištu prije prve narudžbe.

Slika 5.12: Grafički prikaz vremena trajanja razvrstavanja za MinMax i Kombiniranu metodu pri promjeni poslužitelja za prvi scenarij.

Slika 5.13: Grafički prikaz omjera vremena izvođenja MinMax i Kombinirane metode za prvi scenarij. Slika 5.14: Grafički prikaz NED-a za MinMax i Kombiniranu metodu pri promjeni poslužitelja za prvi scenarij. Slika 5.15: Grafički prikaz omjera NED-a MinMax i Kombinirane metode za prvi scenarij.

Slika 5.16: Grafički prikaz vremena trajanja razvrstavanja za MinMax i Kombiniranu metodu pri promjeni poslužitelja za drugi scenarij.

Slika 5.17: Grafički prikaz omjera vremena izvođenja MinMax i Kombinirane metode za drugi scenarij. Slika 5.18: Grafički prikaz NED-a za MinMax i Kombiniranu metodu pri promjeni poslužitelja za drugi scenarij. Slika 5.19: Grafički prikaz omjera NED-a MinMax i Kombinirane metode za drugi scenarij.

Slika 6.1: Skica jednog paletnog regala s tri nivoa odmaknutog od poda na visinu 0,6 𝑚. Slika 6.2: Tlocrtni prikaz moguće prilagodbe skladišta smanjenjem širine prolaza između redova.

(11)

Slika 6.3: Grafički prikaz vremena trajanja razvrstavanja za MinMax i Kombiniranu metodu pri promjeni poslužitelja za prvi scenarij u prilagođenom modelu skladišta.

Slika 6.4: Grafički prikaz omjera vremena izvođenja MinMax i Kombinirane metode za prvi scenarij u prilagođenom modelu skladišta.

Slika 6.5: Grafički prikaz NED-a za MinMax i Kombiniranu metodu pri promjeni poslužitelja za prvi scenarij u prilagođenom modelu skladišta.

Slika 6.6: Grafički prikaz vremena trajanja razvrstavanja za MinMax i Kombiniranu metodu pri promjeni poslužitelja za drugi scenarij u prilagođenom modelu skladišta.

Slika 6.7: Grafički prikaz omjera vremena izvođenja MinMax i Kombinirane metode za drugi scenarij u prilagođenom modelu skladišta.

Slika 6.8: Grafički prikaz NED-a za MinMax i Kombiniranu metodu pri promjeni poslužitelja za drugi scenarij u prilagođenom modelu skladišta.

Slika 6.9: Grafički prikaz omjera vremena, izvođenja Kombinirane metode za prvi scenarij, klasičnog i prilagođenog modela skladišta.

Slika 6.10: Grafički prikaz omjera vremena, izvođenja Kombinirane metode za drugi scenarij, klasičnog i prilagođenog modela skladišta.

(12)

Popis tablica

Tablica 2.1: Udaljenosti između objekta 𝑥 = (6,2,3) i y = (4,2,5) Tablica 4.1: Vrijednosti osnovnog skupa parametara

Tablica 4.2: Vremena trajanja procesa razvrstavanja i NED za pojedinu metodu koristeći vrijednosti osnovnog skupa parametara

Tablica 4.3: Vremena trajanja procesa razvrstavanja i NED za pojedinu metodu koristeći sljedeće parametre (n=500, a=6, s=19683, k=49)

Tablica 4.4: Vremena trajanja procesa razvrstavanja i NED za pojedinu metodu koristeći različit broj objekata 𝑛 i ostale varijable iz osnovnog skupa parametara

Tablica 4.5: Vremena trajanja procesa razvrstavanja i NED za pojedinu metodu koristeći različite maksimalne duljine stranice 𝑎 i ostale varijable iz osnovnog skupa parametara

Tablica 4.6: Vremena trajanja procesa razvrstavanja i NED za pojedinu metodu koristeći različit broj uzoraka u MBB-u i ostale varijable iz osnovnog skupa parametara

Tablica 4.7: Vremena trajanja procesa razvrstavanja i NED za pojedinu metodu koristeći različit broj grozdova 𝑘 i ostale varijable iz osnovnog skupa parametara

Tablica 6.1: Vremena trajanja procesa razvrstavanja Kombiniranom metodom za prvi scenarij u klasičnom i prilagođenom modelu skladišta

Tablica 6.2: Vremena trajanja procesa razvrstavanja Kombiniranom metodom za drugi scenarij u klasičnom i prilagođenom modelu skladišta

(13)

1. UVOD

Dubinska analiza podataka (eng. Data Mining) ciljani je postupak analize podataka s različitom perspektivom, njihovo sažimanje u korisne informacije koje se mogu tada koristiti u svrhu povećanja prihoda, smanjenja troškova itd. Pronalaze se ovisnosti među podacima, uči novo znanje iz podataka i pomoću tog novog znanja predviđa se buduće ponašanje sustava, i to sve na osnovi prethodnih podataka. Dubinska analiza podataka radi se u cilju pronalaska korisnih podataka i njihove prezentacije u ljudima pristupačnom obliku. Razvrstavanje (eng. Clustering) je jedan od najvažnijih dijelova dubinske analize podataka.

Podjela podataka u grupe jedan je od fundamentalnih načina razumijevanja i učenja. Postupak podjele skupa podataka u homogene skupove, grozdove (eng. Cluster), na takav način da su unutar istog grozda podaci međusobno sličniji, nego izvan tog grozda naziva se razvrstavanje. Kada su podaci koji se razvrstavaju prostorne koordinate objekta, tada se može govoriti o razvrstavanju objekata. Objekti koji se nalaze u istom grozdu međusobno su sličniji jedni drugima i na isti način različitiji od objekata koji se nalaze u ostalim grozdovima. Za opisivanje sličnost ili različitost među objektima upotrebljavaju se mjere sličnosti. Objekti koji čine jedan grozd trebaju imati veliku mjeru sličnosti i razlikovati se od objekata u drugim grozdovima. U ovoj disertaciji objekti su zadani s trodimenzionalnim koordinatama i mjera sličnost među objektima određuje se pomoću funkcije udaljenosti. Objekti su sličniji što im je manja međusobna udaljenost.

Razvrstavanje podataka se upotrebljava u različitim znanstvenim granama: informatika, ekonomija, biologija, kemija, medicina itd. U računarstvu svoju je primjenu pronašlo u strojnom učenju, prepoznavanju uzoraka, analizi slika, lokacijskim uslugama i sl. Razvrstavanje sadrži važan informacijski alat – odabir (eng. Selection). Zbog široke primjene razvrstavanja nastale su brojene metode i algoritmi koji koriste različite modele kreiranja grozdova. Postoje različiti parametri u odabiru. To su, već spomenuta, funkcija udaljenosti, maksimalan broj objekata u grozdu, gustoća objekata u grozdu i sl. Parametri su ovisni o skupu objekata koje se razvrstava i mijenjaju se za svaki novi skup.

Razvrstavanje je iterativni postupak. Postupak se ponavlja dok se ne zadovolji ciljna funkcija ili dok rješenje ne konvergira. Ciljna funkcija najčešće se predstavlja minimalnim pomakom središta grozdova u odnosu na središta iz prethodne iteracije, to jest, to je minimalna udaljenost za koju se središta grozdova mogu pomaknuti u odnosu na središta u prethodnoj iteraciji. S druge strane uvjet konvergiranja može biti prestanak prelaženja

(14)

objekata iz jednog grozda u drugi. Proces razvrstavanja završava ispunjenjem ciljne funkcije. Trajanje procesa razvrstavanja proporcionalno je broju iteracija, a dodatan problem može predstavljati i neodređenost objekata.

Neodređenost objekata nastaje zbog ograničenja resursa, mjernih uređaja, baza podataka i sl., a najčešće je posljedica nepreciznosti ili šuma pri mjerenju te zbog neredovitog periodičkog izvještavanja podataka o objektima. U ovoj se disertaciji daje prijedlog nove metode za razvrstavanje objekata koji sadrže neodređenost u svojim prostornim podacima. Kao primjer uzimaju se pokretni objekti koji periodički izvještavaju svoj položaj, a određivanje položaja između dva izvještaja procjenjuje se, s određenom neodređenosti, koristeći pretpostavke o smjeru i brzini kretanja tog objekta. Tada se takvi objekti s neodređenosti ne mogu predstaviti samo sa svojim prostornim koordinatama, kao točka u prostoru, nego se predstavljaju pomoću minimalnog područja neodređenosti. Objekt se mora nalaziti unutar minimalnog područja neodređenosti i vjerojatnost da se objekt nalazi izvan tog područja jednaka je nula. To se područje neodređenosti, u večini slučaja, predstavlja funkcijom gustoće vjerojatnosti (eng. Probability Density Function - PDF). PDF se može modelirati na više načina, a u ovoj disertaciji predstavlja se pomoću niza uzoraka unutar minimalnog graničnog pravokutnika (eng. Minimum Bounding Rectangle - MBR) ili minimalne granične kutije (eng. Minimum Bounding Box - MBB). Svakome uzorku se dodjeljuje vjerojatnost da se baš u njemu nalazi objekt. Zbroj svih vjerojatnosti uzoraka, unutar područja neodređenosti, mora biti jednak jedan.

Mjera sličnost kod objekata s neodređenosti određuje se pomoću funkcije očekivane udaljenosti (eng. Expected distance - ED). Računanje ove udaljenosti između središta grozda i objekta zadanog s neodređenosti puno je zahtjevnije nego jednostavno računanje udaljenosti kod jednoznačno zadanih objekata. Za računanje očekivane udaljenosti nekog objekta do središta grozda mora se izračunati udaljenost od svakog uzorka tog objekta do središta grozda, tj. računa se integral svih umnožaka vjerojatnosti i udaljenosti za sve uzorke objekta od središta grozda. Kako bi se funkcije gustoće vjerojatnosti što bolje opisala potreban je velik broj uzoraka te je računanje očekivane udaljenosti i po nekoliko tisuća puta duže nego računanje udaljenosti jednoznačno zadanih objekata. Kao posljedica toga, razvrstavanje objekata s neodređenosti je i po nekoliko tisuća puta dugotrajnije od razvrstavanja objekata koji ne sadrže neodređenost. Može se zaključiti da je u procesu razvrstavanja objekata s neodređenosti računanje očekivane udaljenosti vremenski najzahtjevnija računalna operacija. Kako bi se smanjio utjecaj koji ima računanje očekivane udaljenosti na vrijeme izvođenja

(15)

razvrstavanja razvijene su različite metode koje odbacuju grozdove kao kandidate za pojedini objekt s neodređenosti bez računanja očekivane udaljenosti.

U ovoj disertaciji objašnjene su trenutno korištene metode za odbacivanje grozdova kao kandidata (eng. Pruning Methods) i predstavljena je nova metoda za razvrstavanje objekata koji sadrže neodređenost u sve tri dimenzije geometrijskog prostora ℝ3_{. Ta nova metoda}

koristi prednosti dvije različite metode koje su prilagođene ℝ3_{prostoru. Uklanjajući}

nedostatke pojedine metode, Kombinirana metoda odbacuje veći ili jednak broj grozdova kao i ostale metode. Prednost je Kombinirane metode, u odnosu na ostale metode, da joj je potrebno manje vremena za odbacivanje grozdova kao kandidata. U ovoj su disertaciji provedeni i pokusi koji dokazaju kako Kombinirana metoda odbacuje više grozdova od postojećih metoda ili je sam postupak odbacivanja grozdova brži nego kod postojećih metoda. Metode razvrstavanja objekata s neodređenosti koje su opisane i predstavljene u ovoj disertaciji primijenjene su na modelu skladišta. Model skladišta je napravljen s ciljem ispitivanja metoda razvrstavanja i uspoređivanje njihovih svojstava. Model skladišta sadrži bazu podataka u koju su spremljeni podaci o proizvodima, narudžbama i zadacima sustava koje se mogu analizirati u svrhu smanjenja vremena potrebnog za skupljanje narudžbe. Na temelju postojećih podataka razvrstavanjem se može dobiti informacija koji je poslužitelj najpogodniji za preuzimanje narudžbe i napraviti predviđanje stanja sustava nakon njezinog izvršenja. Ta predviđanja mogu kao rezultat imati znatnu uštedu sredstva za održavanje sustava i vremena potrebnog za obavljanje narudžbe.

Na kraju ove disertacije dane su preporuke kako prilagoditi skladište u svrhu optimiranja posluživanja. No osnovu tih preporuka napravljen je model skladišta prilagođen novoj metodi razvrstavanja objekata koji sadrže neodređenost u svojim prostornim koordinatama. Cilj ovih prilagodbi je ubrzati sam proces razvrstavanja, tj. dodjeljivanja narudžbi pojedinom poslužitelju kao i omogućavanje što kraćeg komisioniranja narudžbe.

Disertacija je organizirana na sljedeći način. U drugom poglavlju opisani su pojmovi dubinske analize, razvrstavanja, mjera sličnosti i različitosti te dan pregled modela za razvrstavanje objekata. Za svaki model predstavljeni su najpoznatiji algoritmi za razvrstavanje i navedene njihove prednosti i nedostaci.

U trećem poglavlju predstavljene su metode razvrstavanja objekata koji sadrže neodređenost u dvije dimenzije i načini razvrstavanja takvih objekata klasičnim metodama iz drugog poglavlja. Uveden je pojam odbacivanja grozdova i objašnjene su metode koje koriste ovaj postupak za ubrzanje postupka razvrstavanja.

(16)

U četvrtom poglavlju dan je pregled prilagođenih metoda za razvrstavanje objekata koji sadrže neodređenost u sve tri dimenzije geometrijskog prostora ℝ3_{i opisana je metoda}

razvijena u ovoj doktorskoj disertaciji. Napravljeni su pokusi i analize koje uspoređuju opisane metode za razvrstavanje objekata s neodređenosti pri različitim vrijednostima parametara.

U petom poglavlju objašnjeni su osnovni pojmovi vezani uz logistiku skladišta i dan je opis razvijenog modela skladišta. Napravljeni su pokusi i analiza koja uspoređuju opisane metode za razvrstavanje i novo razvijenu metodu pri odabiru poslužitelja i određivanju optimalne pozicije poslužitelja između narudžbi.

U šestom poglavlju opisani su nedostaci modela skladišta iz prethodnog poglavlja i dane su preporuke kako prilagoditi skladište u svrhu optimiranja posluživanja. Napravljene su izmjene u postojećem modelu i ponovno su napravljeni pokusi i analiza te uspoređeni s ranije dobivenim rezultatima. Na kraju doktorske disertacije izneseni su zaključci i dan je sažetak iste.

(17)

2. ANALIZA I RAZVRSTAVANJE PODATAKA

Ovo poglavlje predstavlja neke osnovne koncepte. Prvo je dan pregled ciljeva i razloga za provođenje analize i razvrstavanja podataka. Nakon toga, objašnjeni su pojmovi kao što su mjere sličnosti i udaljenosti, najčešći modeli i različite metode razvrstavanja.

2.1. Dubinska analiza podataka

Informacijski sustavi, u današnje vrijeme, prikupljaju velike količine raznovrsnih podataka koji dolaze iz različitih izvora, različite su forme, sadržaja i vrijednosti. Skup metoda, tehnika i alata koji pretražuju, analiziraju, klasificiraju, procjenjuju i uspoređuju velike količine podataka nazivaju se dubinska analiza podataka. Dubinska analiza podataka obuhvaća istraživanje i analizu velikih količina podataka u svrhu otkrivanja smislenih uzoraka i pravila. To je analitički proces koji rezultira novim znanjem [1], koje se može prikazati u obliku izvještaja. Dubinska analiza podataka još se naziva i dubinska pretraga podataka, inteligentna analiza te rudarenje podataka.

Još jedna definicija dubinske analize podataka navodi da je to analiza opservacijskih podatkovnih setova s ciljem pronalaženja neočekivanih veza ili prikaza podataka koji su za vlasnika podataka novi i korisni [2]. Pod opservacijskim podacima misli se na one podatke koji nisu prikupljeni s ciljem analiziranja, već podacima koji su prikupljeni praćenjem, recimo transakcija. Zbog toga se dubinska analiza podataka često naziva sekundarnom analizom te se na taj način razlikuje od statistike [3].

Većina tehnika dubinske analize podataka preuzeta je iz statistike i računalnih znanosti u svrhu otkrivanja odnosa među varijablama te kreiranju novog zvanja [1]. Izbor određene tehnike, tj. kombinacije tehnika, koje se primjenjuju u određenoj situaciji ovisi o vrsti problema, dostupnim podacima te iskustvenom odabiru istraživača. Dubinska analiza podataka u velikoj mjeri bavi se izgradnjom modela koji se predstavljaju različitim algoritmima. Većina algoritama za dubinsku analizu podataka zahtijeva velike količine podataka kako bi se napravili i trenirali modeli koji će se zatim koristiti u svrhu klasifikacije, predikcije, procjene, razvrstavanja ili nekog drugog zadataka dubinske analize.

Različite metodologije dubinske analize podataka pokazuju kako je moguće niz aktivnosti, koje radi analitičar, predstaviti kao niz logičnih koraka ili zadataka. Danas u dubinskoj analizi podataka dominiraju dvije medodologije: CRISP-DM i SEMMA. Prema [4] najzastupljenija metodologija za rudarenje podataka je CRISP-DM (eng. Cross Industry

(18)

Standard Proces for data mining) metodologija, na drugom mjestu su vlastito razvijene metodologije, a na trećem se nalazi SEMMA (eng. Sample, Explore, Modify, Model, Assess). CRISP-DM, opisan u [5], sastoji se od šest osnovnih koraka: razumijevanje problema, razumijevanje podatka, priprema podatka, modeliranje, evaluacija modela i primjena. Ova metodologija definira dubinsku analizu podataka kao iterativni proces koji prolazi kroz nabrojane korake, kako bi riješio određeni problem. SEEMA-u je razvio SAS instituta i sastoji se od 5 koraka iz naziva: uzrokovanje, istraživanje, modificiranje, modeliranje i procjena [6].

Primjena dubinske analalze podataka može se pronaći u mnogim područjima, kao što su: transport, marketing, farmacija, proizvodnja, upravljanje, medicinska informatika, komunikacije, planiranje vojnih operacija itd [7]. Dubinska analiza podataka koristi se za:

 otkrivanje anomalija,

 uočavanje ovisnosti podataka,

 razvrstavanje,

 klasificiranje,

 regresiju,

 predstavljanje podatake, njihovu vizualizaciju i pisanje izvještaja.

U ovoj disertaciji analiziraju se podaci koji su zadani s neodređenosti. Dubinska analiza nad takvim skupom podataka tim je teža jer se osim informacije o samim podacima daje i njihova neodređenost. Obrada velikih skupova podataka u prihvatljivom vremenu vrlo je važna te je osim velike računalne moći potrebno napraviti i metode koje skraćuju vrijeme izvođenja analize.

2.2. Razvrstavanje

Kako je navedeno u prethodnom potpoglavlju, razvrstavanje podataka jedan je od najvažnijih zadataka dubinske analize. To je postupak podjele koji skup podataka raspodjeljuje u homogene skupove, grozdove, na takav način da su podaci unutar istog grozda međusobno sličniji (na osnovu jednog ili više kriterija), nego podaci izvan tog grozda. Razvrstavanje podataka upotrebljava se u svim granama računarstva (strojnom učenju, prepoznavanju uzoraka, analizi slika, lokacijskim uslugama) kao i u biologiji, medicini, ekonomiji itd. Kada je podatak koji se razvrstava prostorna lokacija nekog objekta, onda se

(19)

su slični jedni drugima i na isti način različiti od objekata koji se nalaze u svim ostalim grozdovima. Za opisivanje sličnost ili različitost među objektima upotrebljava se mjera sličnosti. Sličnost je predefinirani kriterij koji se računa iz opažanja nad objektima. Prema [8] mjera sličnosti koristi se kako bi se opisala sličnost između dva objekta na kvantitativan način. Što je mjera sličnost između dva objekta veća ti su objekti sličniji, a vrijedi i obrnuo. Objekti koji čine jedan grozd trebaju imati:

 što veću mjeru sličnosti,

 što manju međusobnu udaljenost i

 što veću razliku od objekata u drugim grozdovima.

Ako ne postoji mjera sličnosti između dva objekta tada nije moguće provesti ispravno razvrstavanje, jer ne postoje kvantitativni podaci prema kojima bi se razvrstavanje napravilo. Postoji više različitih mjera sličnosti koje će biti obrađene u kasnijim pod poglavljima.

Određeni broj sličnih objekata razvrstanih ili grupiranih zajedno čini jedan grozd. U literaturi se može pronaći mnoštvo definicija grozda, no u [9] dana je sljedeća definicija: „Grozdovi se mogu opisati kao povezane regije multi-dimenzionalnog prostora koje sadrže relativno visoku gustoču točaka, odvojene od istih takvih regija s regijom koja sadrži relativno nisku gustoču točaka.“ Ova definicija pretpostavlja da su objekti, koje se razvrstava u grozdove, predstavljeni kao točke koje sadrže koordinate koje su mjerljive. Sa slike 2.1 vidljiva su područja s visokom i niskom gustoćom točaka. Iako postoje različite definicije grozda, teško je definirati što je u nekoj realnoj situaciji zapravo grozd. Razlog tome može se

(20)

pronaći u slici 2.1. Dvodimenzionalni grozdovi prikazani su na spomenutoj slici. Ako se promatra cijeli prostor slike vidljivo je da su objekti podijeljeni u tri grozda, no ako se lokalno promatra prostor može se izbrojati sedam jedinstvenih grozdova.

U [10] grozdove se dijeli u dvije skupine: kompaktni i ulančani grozdovi. Kompaktni grozd je skup objekata koji imaju visoku mjeru sličnosti i ima karakteristiku da se grozd može predstaviti sa središnjom točkom. Na slici 2.1, u donjem desnom kutu, prikazano je nekoliko kompaktnih grozdova. Ulančani grozd skup je objekata koji su međusobno slični i svaki objekt povezan je s njemu susjednim objektima. Znači da mora postojati putanja u grozdu koja međusobno povezuje bilo koja dva objekta unutar grozda. Na slici 2.1 prikazana su četiri ulančana grozda kružnog i ravnog oblika. Vidljivo je da između bilo koja dva objekta unutar jednog grozda postoji putanja koja ih povezuje.

2.2.1. Proces razvrstavanja

Proces razvrstavanja prolazi kroz četiri koraka, kao što je prikazano na slici 2.2. Prvi korak je prikaz podataka (eng. Data Representation), u kojoj se određuju moguće strukture koje se mogu pronaći među podacima. U koraku modeliranja se na osnovi prikaza podataka o objektima određuje način i kriteriji prema kojima će se objekti razvrstavati u grozdove, tj. odabire se model razvrstavanja koji će se koristiti za stvaranje grozdova. U trećem koraku vrši se optimizacija korištenog prikaza podataka i odabranog modela kako bi se dobili što bolji rezultati. Kao zadnji korak u procesu razvrstavanja obavlja se validacija razultata razvrstavanja u smislu provjere dobivenog i očekivanog rezultata.

Slika 2.2: Proces razvrstavanja podataka.

Prikaz podataka

Modeliranje

Optimizacija

(21)

2.2.2. Podjela razvrstavanja po modelima

Kada se govori o razvrstavanju, u ovoj disertaciji, misli se na jednoznačno razvrstavanje. U ovom tipu modela razvrstavanja objekt 𝑜_𝑖 ∈ 𝑂 = {𝑜₁, 𝑜₂, … , 𝑜_𝑛} može pripadati samo jednom grozdu iz skupa 𝐶 = {𝑐1, 𝑐2, … , 𝑐𝑘}. Rezultat ovog tipa razvrstavanja

dan je 𝑘 × 𝑛 matricom, gdje je 𝑘 broj grozdova, a 𝑛 broj objekata, kako je prikazano jednadžbom (2.1). 𝑂 = ( 𝑜11 𝑜12 … 𝑜1𝑛 𝑜21 𝑜22 … 𝑜2𝑛 ⋮ ⋮ ⋱ ⋮ 𝑜_𝑘1 𝑜_𝑘2 … 𝑜_𝑘𝑛 ) (2.1)

Vrijednosti za svaki pojedinačni 𝑜_𝑗𝑖 zadovoljavaju jednadžbu (2.2). 𝑜_𝑗𝑖 =∈ {0,1}, 1 ≤ 𝑗 ≤ 𝑘, 1 < 𝑖 < 𝑛 ∑ 𝑜_𝑗𝑖 = 1, 1 ≤ 𝑖 ≤ 𝑛 𝑘 𝑗=1 ∑ 𝑜_𝑗𝑖 > 0, 1 ≤ 𝑗 ≤ 𝑘 𝑛 𝑖=1 (2.2)

Nasuprot jednoznačnom razvrstavanju postoji i višeznačno, tj. fuzzy razvrstavanje. Prema ovom modelu razvrstavanja objekt može pripadati jednom ili više grozdova s odgovarajućim vjerojatnostima pripadnosti pojedinom grozdu, po pravilima neizrazite (eng. fuzzy) logike.

Na slici 2.3 prikazana je detaljna podjela modela razvrstavanja. Jednoznačni algoritmi mogu se podjeliti u dvije grupe: raščlanjujući i hijerarhijski model. Raščlanjujući model dijeli se na brojne modele od kojih su najpoznatiji model razvrstavanja oko središnje točke (eng. Centroid Model) i model razvrtavanja prema gustoći groza (eng. Density-based Model),

Slika 2.3: Modeli razvrstavanja podataka. Modeli

razvrstavanja

Oko središta Prema gustoći ... Razdvajajući Aglomerativni

Jednoznačni Fuzzy

(22)

prikazani na slici 2.4. Hijerarhijski algoritmi dijele se na razdvajajuće hijerarhijske algoritme i aglomerativne hijerarhijske algoritme.

Hijerarhijski se modeli ne upotrebljavaju kod velikih skupova podataka, osim u slučajevima kada su jedini izbor. Razlog tome je što zahtijevaju 𝑛2_{memorijskog prostora i 𝑛}3

procesorskog vremena, gdje je 𝑛 broj objekata [10]. U razdvajajućem hijerarhijskom modelu kreće se s jednim velikim grozdom u kojem se nalaze svi objekti i on se postupno razdvaja u manje grozdove, po principu od vrha prema dnu. U aglomerativnom hijerarhijskom modelu odvija se obrnuti proces, tj. na početku se u svakom grozdu nalazi samo jedan objekt i grozdovi se postupno spajaju u veće grozdove dok ne ostane jedan grozd u kojem se nalaze svi objekti, po princip od dna prema vrhu, kao na slici 2.5.

Postoji veći broj modela razvrstavanja podataka i napravljena su brojna istraživanja kako bi se riješili općeniti problemi, no većina problema koji se susreću u praksi ima

Slika 2.4: Raščlanjujući modeli razvrstavanja podataka (a) oko središta (b) prema gustoći.

(a) (b) . O1 O2 O3 O4 O5 O4, O5 O1, O2 O1, O2, O3 O1, O2, O3, O4, O5 A g lo m er at iv n i _R az dv aja ju ći

(23)

specifične zadatke s problemima koji se ne mogu riješiti općenitim modelima te zahtijevaju specifične metode razvrstavanja. U literaturi se mogu pronaći općeniti modeli i različita istraživanja gdje se ti modeli prilagođavaju svakom specifičnom problemu iz prakse.

2.2.3. Podaci s nedostacima

Primjenom razvrstavanja u realnim uvjetima pojavljuju se dva dodatna problema. Prvi je da neki podaci, koje je potrebno razvrstati, jednostavno nisu dostupni i drugi problem da imaju neku vrstu greške. Ako u nekom skupu podataka nedostaju sva mjerenja za jedan zapis ili sva mjerenja za određenu vrijablu tog zapisa tada se taj zapis mora ukloniti iz skupa objekata, a ako nedostaju samo neki podaci o varijabli tada se može primijeniti jedan od dva postupka. Prvi se postupak obavlja prije procesa razvrstavanja tako da se varijabli kojoj nedostaju podaci dodijeli srednja vrijednost ostalih podataka te varijable iz skupa podataka. Drugi postupak određuje vrijednost varijable tijekom samog procesa razvrstavanja koristeći jednu od metoda opisanih u [11].

Podaci s nedostacima i postupci za njihovo nadomještanje unose i pojam neodređenosti u razvrstavanje. O razvrstavanju objekata koji sadrže neodređenost u svojim prostornim podacima bit će više riječi u trećem poglavlju.

2.3. Sličnost i različitost kao mjere pri razvrstavanju objekata

U jednom grozdu nalaze se objekti međusobno sličniji od objekata izvan grozda. Svrha razvrstavanja je međusobno slične objekte objediniti u jedan grozd, ali jednako je važno da međusobno različiti objekti ne budu razvrstani u isti grozd. Zato su sličnosti i različitosti jednako važne pri razvrstavanju. U literaturi se pronalaze termini: mjera sličnosti (eng. Similarity Measures), koeficijent sličnosti (eng. Similarity Coefficients), mjera različitosti (eng. Dissimilarity Measure) i udaljenost (eng. Distance), kojima se kvantitativno opisuju sličnost i različitost dva objekta ili dva grozda. Udaljenost i sličnost su dva suprostavljena koncepta. Mjera sličnosti i koeficijent sličnosti upotrebljavaju se kada se želi kvantitativno opisati koliko su dva objekta slična. Što je mjera sličnosti veća objekti su sličniji jedan drugome. S druge strane, ako se želi istaknuti razlika između dva objekta upotrijebiti će se mjera različitosti ili udaljenost, gdje će se istaknuti da što je udaljenost veća je i različitost među objektima. Postoji osnovna razlika između mjera sličnosti i mjera različitosti, gdje se termin sličnost često u literaturi koristi kao sinonim za povezanost ili korelaciju.

(24)

Ako se promotre dva objekta 𝑜 = (𝑜1, 𝑜2, … , 𝑜𝑚) i 𝑝 = (𝑝1, 𝑝2, … , 𝑝𝑚), opisana

koordinatama u m-dimenzionalnom prostoru, tada se koeficijent sličnosti između njih može opisati kao funkcija vrijednosti njihovih atributa. U ovom slučaju atrbibuti su koordinate objekata u prostoru, kako je prikazano jednadžbom (2.3).

𝑠(𝑜, 𝑝) = 𝑠(𝑜₁, 𝑜₂, … , 𝑜_𝑚, 𝑝₁, 𝑝₂, … , 𝑝_𝑚) (2.3)

Koeficijent sličnosti ima svojstvo komutativnosti, tj. vrijedi da je 𝑠(𝑜, 𝑝) = 𝑠(𝑝, 𝑜). Vrijednosti kojima se opisuje koeficijent sličnosti su brojevi između 0 ≤ 𝑠(𝑜, 𝑝) ≤ 1 i ne može poprimiti negativnu vrijednost. Također vrijedi da je 𝑠(𝑜, 𝑝) = 1 ako je 𝑜 = 𝑝, tj. za dva ista objekta koeficijent sličnosti jednak je jedan.

Ako se kao metrika različitosti između dvije točke koristi udaljenost, ona mora zadovoljavati sljedeća svojstva:

 𝑑(𝑜, 𝑝) ≥ 0,

 𝑑(𝑜, 𝑝) = 0 ako je 𝑜 = 𝑝,

 𝑑(𝑜, 𝑝) = 𝑑(𝑝, 𝑜),

 𝑑(𝑜, 𝑝) ≤ 𝑑(𝑜, 𝑧) + 𝑑(𝑝, 𝑧).

gdje su 𝑜, 𝑝 i 𝑧 proizvoljne točke u n-dimenzionalnom prostoru. Prvo svojstvo govori da udaljenost između dva objekta ne može biti negativna. Drugo svojstvo je svojstvo refleksivnost, a treće je komutativnost. Četvrto svojstvo je svojstvo nejednakosti trokuta.

Prema [12] postoji 12 različitih struktura za opis mjere sličnosti. U sljedećim poglavljima bit će opisane neke od njih.

2.3.1. Matrica blizine

Matrica blizine, objašnjena u [8], sadrži podatke o međusobnoj blizini indeksiranih parova skupa objekata. To je kvadratna simetrična matrica u kojoj se indeks blizine odnosi na mjeru sličnosti ili mjeru različitosti. Matrica blizine sadrži podatke o bliskosti između svih parova objekata i opisuje koliko je objekt sličan s bilo kojim drugim objektom u skupu objekata u ovisnosti o njihovoj udaljenosti. Za m-dimenzionalni prostorni skup objekata 𝐷 = {𝑜₁, 𝑜₂, … , 𝑜_𝑛} dana je udaljenosti od objekta 𝑜_𝑖 do ostalih objekata u promatranom prostoru koja predstavlja jedan red u matrici udaljenosti 𝑀𝑢(𝐷), koja je opisana jednadžbom

(25)

𝑀_𝑢(𝐷) = ( 0 𝑑₁₂ … 𝑑_1𝑛 𝑑₂₁ 0 … 𝑑_2𝑛 ⋮ ⋮ ⋱ ⋮ 𝑑𝑛1 𝑑𝑛2 … 0 ) (2.4)

gdje je 𝑑_𝑖𝑗 = 𝑑(𝑜_𝑖, 𝑜_𝑗), a 𝑑 predstavlja neku od funkcija udaljenosti kao što su minowski, euklidsku i sl. Funkcije udaljenosti detaljnije su objašnjene u sljedećim poglavljima. Iz matrice (2.4) vidi se da sve udaljenosti 𝑑_𝑖𝑖 = 0 što zadovoljava drugo svojstvo kada se udaljenost koristi kao metrika različitosti između dvije točke.

Matrica sličnosti za isti skup objekata 𝐷 = {𝑜₁, 𝑜₂, … , 𝑜_𝑛} opisana je jednadžbom (2.5).

𝑀𝑠(𝐷) = ( 1 𝑠12 … 𝑠1𝑛 𝑠21 1 … 𝑠2𝑛 ⋮ ⋮ ⋱ ⋮ 𝑠𝑛1 𝑠𝑛2 … 1 ) (2.5)

gdje je 𝑠_𝑖𝑗 = 𝑠(𝑥_𝑖, 𝑥_𝑗), a 𝑠 predstavlja neku od mjera sličnosti.

Matrica udaljenosti 𝑀𝑢(𝐷) i matrica sličnosti 𝑀𝑠(𝐷) nad skupom objekata 𝐷 su

primjeri matrica blizine. Ako su funkcija udaljenosti i mjera sličnosti simetrične, tada će i dvije matrice blizine također biti simetrične.

2.3.2. Graf blizine

Uz matricu blizine kao mjera sličnosti može se koristiti i graf blizine. Graf blizine je težinski graf u kojem čvorove čine razvrstani objekti, a grane koje ih spajaju predstavljaju koeficijente sličnosti. Za isti skup 𝐷 vrijednosti koeficijenta sličnosti iste su u oba slučaja, ali su predstavljene na različit način. Usmjereni grafovi blizine jedanki su asimetričnim matricama blizine, a neusmjereni grafovi jednaki su simetričnim matricam blizine.

2.3.3. Matrica razasutosti

Matrica razasutosti za m-dimenzionalni prostorni skup objekata 𝐷 = {𝑜1, 𝑜2, … , 𝑜𝑛} u

kojem je svaki objekt 𝑜_𝑖 opisan vektorom 𝑜_𝑖 = (𝑜_𝑖1, 𝑜_𝑖2, … , 𝑜_𝑖𝑚) računa se pomoću jednadžbe (2.6), 𝑀_𝑟(𝐷) = ∑(𝑜_𝑖− 𝑜̅)𝑇_(𝑜 𝑖− 𝑜̅) 𝑛 𝑖=1 (2.6)

(26)

𝑜̅ = 1 𝑛∑ 𝑜𝑖

𝑛

𝑖=1

(2.7)

Iz jednadžbe (2.6) vidljivo je da se radi o sumi kvadrata.

Trag matrice računa se jednadžbom (2.8) i predstavlja statističku razasutost skupa objekata 𝐷.

𝑇𝑟(𝑀𝑟(𝐷)) = ∑(𝑜𝑖− 𝑜̅) 𝑛

𝑖=1

(𝑜𝑖− 𝑜̅)𝑇 (2.8)

Za neki grozd 𝑐_𝑖 ∈ 𝐷 matrica razasutosti 𝑀_𝑟(𝑐_𝑖) naziva se matrica unutrašnje razasutosti od 𝑐_𝑖 i označava s 𝑀_𝑢𝑟(𝑐_𝑖) . Za skup grozdova 𝐶 = {𝑐₁, 𝑐₂, … , 𝑐_𝑘} koji je podskup skupa 𝐷 matrica unutrašnje razasutosti grozdova računa se po jednadžbi (2.9),

𝑀_𝑢𝑟(𝐶) = ∑ 𝑘 𝑖=1 ∑(𝑜 − 𝑧_𝑖)𝑇_{(𝑜 − 𝑧} 𝑖) 𝑜𝜖𝐶𝑖 (2.9)

gdje je 𝑧_𝑖 srednja vrijednost grozda 𝑐_𝑖 i računa se po jednadžbi (2.10)

𝑧𝑖 =

1 |𝑐𝑖|_𝑜𝜖𝑐∑ 𝑜

𝑖

(2.10)

Dok se matrica „vanjske“ razasutosti grozdova (razasutost između grozdova) može izračunati jednadžbom (2.11).

𝑀𝑣𝑟(𝐶) = 𝑀𝑟(𝐷) − 𝑀𝑢𝑟(𝐶) (2.11)

2.3.4. Matrica kovarijanci

Kovarijanca je poznati pojam u statistici i može služiti kao mjera sličnosti. To je mjera koja kazuje koliko se dvije slučajne varijable mijenjaju zajedno. Ako je 𝐷 = {𝑜₁, 𝑜₂, … , 𝑜_𝑛} skup objekata, gdje je svaki objekt opisan s 𝑚 atributa 𝑜𝑖 = (𝑜𝑖1, 𝑜𝑖2, … , 𝑜𝑖𝑚), onda je

kovarijanca između takva dva takva atributa 𝑜_𝑖𝑝 i 𝑜_𝑖𝑞 definirana kao omjer sume produkata njihovih standardnih devijacija od srednjeg broja i računa se jednadžbom (2.12).

𝑐_𝑝𝑞 = 1

𝑛∑(𝑜𝑖𝑝− 𝑜̅̅̅)(𝑜𝑝 𝑖𝑞− 𝑜̅̅̅)𝑞

𝑛 𝑖=1

(27)

gdje je 𝑜_𝑖𝑗 j-ti atribut objekata 𝑜_𝑖 i 𝑜̅ je srednja vrijednosti svih podataka na j-tom atributu. _𝑗 Srednja vrijednost svih podataka na j-tom atributu računa se jednadžbom (2.13).

𝑜̅ =𝑗 1 𝑛∑ 𝑜𝑖𝑗 𝑛 𝑖=1 , 𝑗 = 1,2, … , 𝑚 (2.13)

Nakon što se izračunaju svi elementi dobije se 𝑚 × 𝑚 matrica, u kojoj svaki unos (𝑝, 𝑞) predstavlja kovarijancu između atributa 𝑜𝑝 i 𝑜𝑞 i ta se matrica naziva matrica kovarijanci,

prikazana je jednadžbom (2.14). 𝛴 = ( 𝑐11 𝑐12 … 𝑐1𝑚 𝑐21 𝑐22 … 𝑐2𝑚 ⋮ ⋮ ⋱ ⋮ 𝑐_𝑚1 𝑐_𝑚2 … 𝑐_𝑚𝑚 ) (2.14)

2.3.5. Udaljenost kao mjera brojčanih podataka

U ovom poglavlju opisane su različite vrste funkcija računanja udaljenosti koje se koriste pri razvrstavanju objekata. Koju od predstavljenih udaljenosti odabrati kao mjeru u pojedinoj primjeni najviše ovisi o načinu kako je opisan skup objekata. Kako će uskoro biti detaljno objašnjeno različite udaljenosti najbolje odgovaraju različitim slučajima. Odabir najbolje mjere najčešće je rezultat iskustva, vještine i znanja. U svim opisima izračunavati će se udaljenost između dva objekta 𝑥 = (𝑥₁, 𝑥₂, … , 𝑥_𝑚) i 𝑦 = (𝑦₁, 𝑦₂, … , 𝑦_𝑚).

Udaljenost Minkowskog

Udaljenost Minkowskog je metrika za udaljenost između dva objekta 𝑥 i 𝑦. Računa se kao 𝑝-ti korijen sume apsolutnih razlika između svih parova vrijednosti potenciranih na 𝑝-tu potenciju te je opisana jednadžbom (2.15),

𝑑(𝑥, 𝑦) = √∑|𝑥𝑖 − 𝑦𝑖|𝑝 𝑚

𝑖=1

𝑝

, 𝑝 ≥ 1 (2.15)

gdje su 𝑥_𝑖 i 𝑦_𝑖 vrijednosti i-tog atributa objekata 𝑥 i 𝑦. Varijabla 𝑝 mora biti veća ili jednaka jedan. Za različite vrijednosti vrijable 𝑝 dobiju se različiti oblici ove jednadžbe. Kada je 𝑝 = 1 udaljenost minkowskog opisuje udaljenost gradskih blokova (Manhattan udaljenost), kada je 𝑝 = 2 onda se govori o euklidskoj udaljenosti, a kada 𝑝 → ∞ govori se o Čebiševljevoj udaljenost (maksimalna udaljenost).

(28)

Na slici 2.6 prikazan je skup točaka u dvodimenzionalnom prostoru koji je od neke čvrste točke središta (u ovom primjeru ishodišta) udaljen za odabranu konstantnu vrijednost 𝑝 za udaljenost minkowskog.

Udaljenost gradskih blokova

Udaljenost gradskih blokova ili Manhattan udaljenost je specijalni slučaj udaljenosti minkowskog kada je 𝑝 = 1 i upotrebljava se za računanje udaljenosti između gradskih blokova. Opisana je kao suma udaljenosti svih atributa. Za dva objekta 𝑥 i 𝑦 u m-dimenzijonalnom prostoru Manhattan udaljenost opisana je jednadžbom (2.16).

𝑑(𝑥, 𝑦) = ∑|𝑥_𝑖− 𝑦_𝑖|

𝑚

𝑖=1

(2.16)

U nekim slučajevima nije potrebno računati sa svim atributima dimenzija [13]. U tom se slučaju koristi djelomična verzija Manhattan udaljenosti u kojoj se pri računanju udaljenosti koristi samo podskup 𝑃 iz ukupnog skupa objekata 𝐷, gdje 𝑃 ne smije biti prazan skup, kako je prikazano jednadžbom (2.17). 𝑑(𝑥, 𝑦) = ∑|𝑥𝑖 − 𝑦𝑖| |𝑃| 𝑚 𝑖=𝑃 (2.17) Euklidska udaljenost

Euklidska udaljenost je specijalna slučaja udaljenosti Minkowskog kada je 𝑝 = 2 i ona je najčešće korištena mjera za udaljenost brojčanih podataka. Za dva objekta 𝑥 i 𝑦 u m-dimenzionalnom prostoru euklidska udaljenost računa se jednadžbom (2.18).

𝑑(𝑥, 𝑦) = √∑(𝑥_𝑖− 𝑦_𝑖)2 𝑚

𝑖=1

= √(𝑥 − 𝑦)(𝑥 − 𝑦)𝑇 (2.18)

Postoji još jedan oblik euklidske udaljenosti koji se naziva kvadratna euklidska udaljenost i računa se po jednadžbi (2.19). Potrebno je napomenuti da kvadratna euklidska udaljenost nije zapravo udaljenost nego mjera.

(29)

𝑑(𝑥, 𝑦)2 _{= ∑(𝑥} 𝑖− 𝑦𝑖)2 𝑚 𝑖=1 = (𝑥 − 𝑦)(𝑥 − 𝑦)𝑇 (2.19) Čebiševljeva udaljenost

Čebiševljeva udaljenost ili maksimalna udaljenost između dva objekta izražena je kao maksimalna apsolutna razlika između dva atributa u bilo kojoj od varijabli. Za dva objekta 𝑥 i 𝑦 u m-dimenzionalnom prostoru euklidska udaljenost računa se jednadžbom (2.20).

𝑑(𝑥, 𝑦) = 𝑚𝑎𝑥1≤𝑖≤𝑚|𝑥𝑖 − 𝑦𝑖| (2.20)

U tablici 2.1 dan je primjer rezultata udaljenosti dva objekta za sve prikazane metrike.

Udaljenosti bazirane na euklidskoj udaljenosti

Postoji slučaj kada euklidska udaljenost između dva objekta koji imaju potpuno različite atribute može biti manja od udaljenosti između dva objekta kod kojih su neki od atributa identični. U takvim slučajevima euklidsku udaljenost potrebno je izmijeniti pa se dobije nova udaljenost koja se naziva prosječna udaljenost Za dva objekta 𝑥 i 𝑦 u m-dimenzijonalnom prostoru prosječna udaljenost opisana je jednadžbom (2.21).

𝑑(𝑥, 𝑦) = √1

𝑚∑(𝑥𝑖− 𝑦𝑖)2

𝑚 𝑖=1

(2.21)

Još jedna udaljenost koja je nastala izmjenom euklidske udaljenosti je tetivna udaljenost Ona se opisuje kao duljina tetive koja spaja dvije normalizirane točke unutar kruga ili sfere s polumjerom jednakim jedan [14]. Za dva objekta 𝑥 i 𝑦 u m-dimenzijonalnom prostoru tetivna udaljenost opisana je jednadžbom (2.22),

𝑑(𝑥, 𝑦) = √2 − 2 ∑ 𝑥𝑖𝑦𝑖

𝑚 𝑖=1

‖𝒙‖₂‖𝒚‖₂ (2.22)

Tablica 2.1: Udaljenosti između objekta 𝑥 = (6,2,3) i 𝑦 = (4,2,5)

𝑖 1 2 3

Udaljenost

𝑥(𝑖) 6 2 3

𝑦(𝑖) 4 2 5

udaljenost minkowskog (p=2) 4 0 4 2.828

udaljenost gradskih blokova 2 0 2 4

euklidska udaljenost 4 0 4 2.828

kvadratna euklidska udaljenost 4 0 4 8

(30)

gdje ‖𝑥‖2 i ‖𝑦‖2 predstavljaju 𝐿2 normu i računaju se jednadžbom (2.23). ‖𝒙‖2 = √∑ 𝑥𝑖2 𝑚 𝑖=1 , ‖𝒚‖2 = √∑ 𝑦𝑖2 𝑚 𝑖=1 (2.23)

Tetivna udaljenost rješava problem sa skaliranjem mjera udaljenosti i rješavanja, gore navedene, nedostatke euklidske udaljenosti. Modifikacija tetivne udaljenosti koja se zove geodetska udaljenost objašnjena je u [10].

2.3.6. Sličnost kao mjera brojčanih podataka

U ovom poglavlju opisane su dvije vrste računanja sličnosti koje se koriste pri razvrstavanju objekata. U svim opisima izračunavati će se udaljenost između dva objekta 𝑥 = (𝑥₁, 𝑥₂, … , 𝑥_𝑚) i 𝑦 = (𝑦₁, 𝑦₂, … , 𝑦_𝑚).

Kosinusna sličnost

Kosinus kuta između dva vektora može se koristiti za predstavljanje mjere sličnosti. Kosinus kuta jednak je koeficijentu korelacije i računa se po jednadžbi (2.24). Kada su dva vektora iste orijentacije sličnost je 1, ako je kut između njih 90 mjera sličnosti je 0 [15].

𝑠(𝑥, 𝑦) = ∑ (𝑥𝑖𝑦𝑖) 𝑚 𝑖=1 √∑𝑚𝑖=1𝑥𝑖2∑𝑚𝑖=1𝑦𝑖2 (2.24) Pearsonova korelacija

Pearsonov koeficijent korelacije između dva objekta koristi se kao mjera sličnosti između ta dva objekta i dan je jednadžbom (2.25),

𝑠(𝑥, 𝑦) = 1 𝑚 − 1∑ ( 𝑥𝑖 − 𝑥̅ 𝑠_𝑥 ) 𝑚 𝑖=1 (𝑦𝑖 − 𝑦̅ 𝑠_𝑦 ) (2.25)

gdje su 𝑥̅ i 𝑦̅ aritmetičke sredine svih atributa objekta 𝑥 i 𝑦, a 𝑠_𝑥 i 𝑠_𝑦 računaju se jednadžbom (2.26). 𝑠_𝑥= √ 1 𝑚 − 1∑(𝑥𝑖 − 𝑥̅)2 𝑚 𝑖=1 , 𝑠_𝑦 = √ 1 𝑚 − 1∑(𝑦𝑖− 𝑦̅)2 𝑚 𝑖=1 (2.26)

(31)

2.4. Sličnost i različitost kao mjera između grozdova

Kod razvrstavanja hijerarhijskim aglomerativnim algoritmima u svakoj se iteraciji dvije najslične grupe grozdova spajaju kako bi se od njih stvorio novi grozd. Ovaj proces nastavlja se dok se ne dobije željeni broj grozdova ili dok se svi grozdovi ne spoje u jedan grozd. Suprotan proces odvija se kod upotrebe hijerarhijskih razdvajajućih algoritama razvrstavanja. U ovom procesu svi se objekti nalaze u jednom grozdu koji se postupno dijeli u manje grozdove. Kako bi se mogla dva grozda spojiti u jedan ili jedan grozd podjeliti na dva potrebno je znati mjeru sličnosti ili različitosti. To se postiže izračunom udaljenost između središta grozda i objekata te udaljenosti između dva grozda. U primjeru koji slijedi računaju se mjere sličnosti između dva grozda 𝑐₁ = {𝑜₁₁, 𝑜₁₂, … 𝑜_1𝑛} i 𝑐2 = {𝑜21, 𝑜22, … 𝑜2𝑚}, gdje su 𝑛

i 𝑚 broj objekata u pojedinom grozdu.

Udaljenost između središta grozdova

Kao i u prethodnom potpoglavlju, način na koji se mogu prikazati razlike između grozdovima mjerenje je udaljenosti između središta dva grozda. Ako grozdovi sadrže objekte opisane brojčanim podacima tada se udaljenost između središta grozdova može izračunati prema jednadžbi (2.27),

𝐷(𝑐₁, 𝑐₂) = 𝑑(𝜇(𝑐₁), 𝜇(𝑐₂)) (2.27)

gdje je 𝑑 neka od funkcija za računanje udaljenosti,a 𝜇(𝑐₁) i 𝜇(𝑐₂) su središta grozdova izračunata prema jednadžbi (2.28).

𝜇(𝑐1), = 1 |𝑐1|_𝑥∈𝑐∑ 𝑥 1 , 𝜇(𝑐2), = 1 |𝑐2|_𝑥∈𝑐∑ 𝑥 2 (2.28)

Najmanja udaljenost među grozdovima

Za mjeru sličnosti između dva grozda može se koristiti i udaljenost između dva najbliža objekta iz susjednih grozdova. Ova mjera računa se tako da se odabere jedna od funkcija udaljenosti 𝑑 između dva grozda 𝑐₁ i 𝑐₂ i računa se po jednadžbi (2.29).

𝐷_𝑚𝑖𝑛(𝑐₁, 𝑐₂) = 𝑚𝑖𝑛_{1≤𝑖≤𝑛;1≤𝑗≤𝑚}𝑑(𝑜_1𝑖, 𝑜_2𝑗) (2.29)

Na slici 2.7(a) prikazan je način računanja najmanje udaljenosti između grozdova u dvo-dimenzionalnom prostoru.

Najveća udaljenost među grozdovima

Kao mjera sličnosti može se koristiti i najveća udaljenost između grozdova 𝑐₁ i 𝑐₂, tj. udaljenost između dva najudaljenija objekta iz ta dva grozda. Ova mjera računa se tako da se

(32)

odabere jedna od funkcija udaljenosti 𝑑 između dva grozda 𝑐1 i 𝑐2 i računa se po jednadžbi

(2.30).

𝐷𝑚𝑎𝑥(𝑐1, 𝑐2) = 𝑚𝑎𝑥1≤𝑖≤𝑛;1≤𝑗≤𝑚𝑑(𝑜1𝑖, 𝑜2𝑗) (2.30)

Na slici 2.7(b) prikazan je način računanja najveće udaljenosti među grozdovima u dvo-dimenzionalnom prostoru.

Prosječna udaljenost među grozdovima

Za mjeru sličnosti dva grozda može se izabrati i prosječna udaljenosti između grozdova [16]. Prosječna udaljenost između dva susjedna grozda za danu funkciju udaljenosti 𝑑 između dva grozda 𝐶1 i 𝐶2 može se izračunati prema sljedećoj jednadžbi (2.31).

𝐷𝑎𝑣𝑔(𝑐1, 𝑐2) = 1 𝑛𝑚∑ ∑ 𝑑(𝑜1𝑖, 𝑜2𝑗) 𝑚 𝑗=1 𝑛 𝑖=1 (2.31)

U istoj literaturi se navodi i statistička udaljenost koja se računa po jednadžbi (2.32), 𝐷_𝑎𝑣𝑔(𝑐₁, 𝑐₂) = 𝑛𝑚

𝑛 + 𝑚(𝑜̅ − 𝑜1 ̅̅̅)(𝑜2 ̅ − 𝑜1 ̅̅̅)2 𝑇 (2.32) gdje su 𝑜̅ i 𝑜₁ ̅̅̅ srednje vrijednosti koje se računaju koristeći jedandžbu (2.33). ₂

𝑜̅ =₁ 1 𝑛∑ 𝑜1𝑖 𝑛 𝑖=1 , 𝑜̅̅̅ =₂ 1 𝑚∑ 𝑜2𝑗 𝑚 𝑗=1 (2.33)

Ako je 𝑐 grozd koji nastaje spajanjem grozdova 𝑐₁ i 𝑐₂, i ako su 𝑀_𝑟(𝑐), 𝑀_𝑟(𝑐₁) i 𝑀_𝑟(𝑐₂) matrice razasutosti grozdova 𝑐, 𝑐1 i 𝑐2 onda vrijedi jednadžba (2.34).

Slika 2.7: Udaljenost između najbližih (a) i najudaljenijih (b) objekata dvaju susjednih grozdova.

Dmin Dmax C1 C2 C2 C1 (a) (b)

(33)

𝑀_𝑟(𝑐) = 𝑀_𝑟(𝑐₁) + 𝑀_𝑟(𝑐₂) + 𝑛𝑚

𝑛 + 𝑚(𝑜̅ − 𝑜1 ̅̅̅)2 𝑇(𝑜̅ − 𝑜1 ̅̅̅) 2 (2.34) Matrica _𝑛+𝑚𝑛𝑚 (𝑜̅ − 𝑜₁ ̅̅̅)₂ 𝑇(𝑜̅ − 𝑜₁ ̅̅̅) naziva se matrica među-razasutosti i trag ove matrice je ₂ jednak statističkoj udaljenosti između grozdova 𝑐₁ i 𝑐₂.

2.5. Metode za razvrstavanje objekata oko središnje točke

U ovoj se disertaciji najviše govori o jednoznačnom raščlanjujućem razvrstavanju objekata oko središnje točke. U disertaciji se upotrebljavaju veliki skupovi m-dimenzionalnih podataka koje je potrebno razvrstati te se zbog toga koriste metode ovog tipa razvrstavanja jer imaju veću učinkovitost od metoda hijerarhijskog razvrstavanja. U ovom poglavlju bit će objašnjene najčešće korištene metode kao i njihove prednosti i nedostaci.

Ovaj tip algoritama nije pogodan za razvrstavanje objekata u grozdove nepravilnih oblika. Razlog tome je što su grozdovi koji nastaju ovim postupkom konveksnog oblika i prikazuju se pomoću središnje točke koja se naziva središte grozda. Algoritmi ovog tipa imaju kao početni parametar, osim podataka o objektima i broj grozdova, ciljnu funkciju koja određuje točnost razvrstavanja. Cilj algoritma je što više smanjiti ciljnu funkciju i on se ponavlja sve dok se ciljna funkcija ne zadovolji. Ciljna funkcija je mjera koja se najčešće predstavljena minimalnim pomakom središta grozda u odnosu na središte iz prethodne iteracije.

2.5.1. k-means metoda

k-means metoda jedna je od najčešće upotrebljivanih metoda za razvrstavanje objekata s brojčanim podacima [10]. Ovu metodu razvilo je nekoliko znanstvenika kroz nekoliko znanstvenih polja, od kojih treba izdvojiti Lloyda (1957), Forgeya (1965), Friedman i Rubin (1967) i McQueen (1967) [17]. Detaljan povijesni pregled razvoja k-means metode i nekoliko njezinih inačica dan je u [8]. Razvijena je u svrhu razvrstavanja brojčanih podataka u 𝑘 grozdova, od kojih je svaki opisan središnjom točkom (eng. Mean). Broj grozdova 𝑘 je konstantan i kao takav ne mijenja se kroz sve iteracije postupka razvrstavanja. On je zadan na samom početku procesa zajedno s ciljnom funkcijom.

Postupak razvrstavanja počinjem odabirom početnih koordinata središta 𝑘 grozdova i pridruživanjem objekata najbližem grozdu. Nakon ovog dijela postupka računaju se nova središta grozdova na osnovu srednje vrijednosti svih objekata koji su pridruženi grozdu. U

(34)

sljedećoj iteraciji ponovno se obavlja dodjeljivanje objekata novim središtima grozdova i proces se ponavlja dok se ne zadovolji ciljna funkcija ili dok objekti ne prestanu mijenjati pripadnost pojedinom grozdu, tj. dok ne konvergiraju. Ciljna funkcija je funkcija pogreške i određuje kraj razvrstavanja.

Neka je skup objekata 𝑂 = {𝑜₁, 𝑜₂, … , 𝑜_𝑛} i neka je 𝐶 = {𝑐₁, 𝑐₂, … , 𝑐_𝑘} skupa grozdova skupa 𝑂 tada se fukcija pogreške 𝐸 računa jednadžbom (2.35),

𝐸 = ∑ ∑ 𝑑(𝑜, 𝜇(𝑐_𝑖))

𝑜∈𝑐_𝑖 𝑘 𝑖=1

(2.35)

gdje je 𝜇(𝑐_𝑖) središte grozda 𝑐_𝑖, a 𝑑(𝑜, 𝜇(𝑐)) udaljenost između objekta 𝑜 i središta grozda. Funkcija udaljenosti 𝑑 može biti bilo koja udaljenost objašnjena u 2.3.5 poglavlju, a najčešće se koristi euklidska udaljenost.

Pseudo kôd k-means metode prikazan je algoritmom 2.1. Algoritam se može podijeliti na dva dijela. Prvi dio naziva se inicijalizacijski i prikazan je drugom linijom kôda. U inicijalizacijskom dijelu algoritam slučajnim odabirom raspodjeljuje objekte u 𝑘 grozdova. U drugom dijelu, od 3 do 11 linije kôda, koji se naziva iterativni dio računaju se udaljenosti između objekata i grozdova te se objekti se dodjeljuju najbližem grozdu. Ovaj postupak se radi za sve objekte i računa se njihova udaljenost prema svim grozdovima.

Ako se k-means metoda promatra kao optimizacijski problem s ciljem minimiziranja ciljne funkcije prema određenim uvjetima, onda se ciljna funkcija može definirati jednadžbom (2.36), 𝑃(𝑊, 𝑄) = ∑ ∑ 𝑤𝑖𝑗 𝑑(𝑜𝑖, 𝑞𝑗) 𝑛 𝑖=1 𝑘 𝑗=1 (2.36)

Algoritam 2.1: Pseudo kôd k-means algoritma za razvrstavanje.

1. Ulaz: skup grozdova 𝐶 i skup objekata 𝑂

2. grozdovima na početnim pozicijama dodjeli najbliže objekte iz skupa 𝑂 3. do

4. for all 𝑜𝑖 ∈ 𝑂

5. izračunati 𝑑(𝑜𝑖, 𝑐𝑗)

6. pridružiti objek grozdu s najmanjim 𝑑

7. end for all

8. for all 𝑐𝑗∈ 𝐶

9. izračunati nove pozicije središta grozdova

10. end for all

(35)

gdje je 𝑄 = {𝑞₁, 𝑞₂, … , 𝑞_𝑘 } skup grozdova, funkcija udaljenosti 𝑑 je euklidska, a 𝑊 je matrica veličine 𝑛 × 𝑘 koja zadovoljava uvjete dane jednadžbom (2.37).

1. 𝑤𝑖𝑗 ∈ {0,1} 𝑖 = 1,2, … , 𝑛, 𝑗 = 1,2, … , 𝑘 2. ∑ 𝑤𝑖𝑗 = 1 𝑘 𝑗=1 𝑖 = 1,2, … , 𝑛 (2.37)

Ovaj optimizacijski problem rješava se iterativno tako da se podijeli na dva potproblema: 1. Postaviti 𝑄 = 𝑄̂ i riješiti reducirani problem 𝑃(𝑊, 𝑄̂) .

2. Postaviti 𝑊 = 𝑊̂ i riješiti reducirani problem 𝑃(𝑊̂ , 𝑄). Rješavanje ovih potproblema objašnjeno je u [18] pomoću dva teorema.

Teorem 1: Ako je 𝑄̂ = {𝑞̂, 𝑞₁ ̂, … , 𝑞₂ ̂_𝑘} postavljena kao fiksna vrijednost, tada je funkcija 𝑃(𝑊, 𝑄̂) minimizirana ako i samo ako vrijedi jednadžba (2.38).

𝑤_𝑖𝑗 = {1₀ 𝑎𝑘𝑜 𝑑(𝑜𝑖, 𝑞̂𝑗) = 𝑚𝑖𝑛1≤𝑡≤𝑘𝑑(𝑜𝑖, 𝑞̂𝑡) (2.38)

Teorem 2: Ako je 𝑊̂ postavljeno kao fiksna vrijednost tada je funkcija 𝑃(𝑊̂ , 𝑄) minimizirana ako i samo ako vrijedi jednadžba (2.39),

𝑞_𝑗𝑑 = ∑ 𝑤̂𝑖𝑗𝑜𝑖𝑑 𝑛 𝑖=1 ∑𝑛 𝑤̂_𝑖𝑗 𝑖=1 (2.39)

gdje je 𝑑 = 1,2, … , 𝑚 dimenzija prostora.

Vremenska složenost algoritma po iteraciji je 𝑂(𝑛𝑘𝑚), gdje je 𝑛 broj objekata u skupu objekata, 𝑘 je broj grozdova i 𝑚 broj prostornih dimenzija. Budući da se niz 𝑃 smanjuje on će nakon konačnog broja iteracija konvergirati u točku lokalnog minimuma i tako zaustaviti proces razvrstavanja [19].

Metoda predstavljena u ovom poglavlju naziva se konvencionalni ili standardni k-means. Postoje različite inačice k-means metode koje su razvijene kako bi se poboljšale performanse postupka, a predstavljene su u sljedećim poglavljima. Standardni k-means ima sljedeće nedostatke:

 nije učinkovit za razvrstavanje velikih skupova objekata jer je njegova složenost linearno proporcionalna veličini skupa objekata,

 često završava razvrstavanje kada se postigne lokalni optimum,

 grozdovi su konveksnog oblika,

 koristi se samo za brojčane podatke,

(36)

Ovo zadnje svojstvo se može riješiti korištenjem jedne od razvijenih inicijalizacijskih metoda koje predlažu različite načine izbora za početna središta grozdova [20, 21].

2.5.2. Kontinuirana k-means metoda

Prijedlog za kontinuiranu k-means metodu dan je u [22]. Ova metoda odlikuje se bržim procesom razvrstavanja od standardnog k-means-a iz dva razloga. Prvi je da se početna središta grozdova u ovoj metodi odabiru slučajnim odabirom iz skupa objekata, dok standardni k-means središta grozdova odabire proizvoljno. Drugi razlog poboljšane učinkovitosti leži u činjenici da neprekidni k-means u svakoj iteraciji ne uzima u obzir sve objekte u skupu objekata, nego samo dio skupa objekata. Slučajno uzorkovanje objekata predstavlja izvorni koncept koji je korišten za razvrstavanje u neprekidnom prostoru. Prema MacQueenu [17] funkcija pogreške 𝐸_𝑖 za svako područje 𝑅_𝑖 dana je jednadžbom (2.40),

𝐸𝑖 = ∫ 𝜌(𝑥)‖𝑥 − 𝑐𝑖‖2𝑑𝑥 𝑅𝑖

(2.40)

gdje je 𝜌(𝑥) neprekidna funkcija gustoće vjerojatnosti nad područjem 𝑅_𝑖 sa središtem u 𝑐_𝑖. Zbrajanjem svih funkcija pogrešaka 𝐸𝑖 dobije se ukupna funkcija pogreške. Tako se

korištenjem uzorkovanja slučajnog skupa objekata može procijeniti funkcija gustoće vjerojatnosti 𝜌(𝑥) i na taj način dobiti funkcija pogreške bez korištenja svih objekata iz skupa objekata. Zbog korištenja manjeg broja objekata kontinuirani k-means brži je od standardnog.

2.5.3. Usporedna k-means metoda

Kako bi se ubrzao standardni k-means postupak razvrstavanja u [23] predstavljena je nova k-means metoda koja na jednostavan način izbjegava računanje nepotrebnih usporedbi. Ako je 𝑜 objekt iz skupa objekata 𝑂, a 𝜇𝑖 i 𝜇𝑗 su dva središta, tada se pomoću nejednakosti

trokuta može izračunati koji od središta je nepotrebno uspoređivati prema jednadžbi (2.41).

𝑑(𝑜, 𝜇_𝑖) + 𝑑(𝑜, 𝜇𝑗) ≥ 𝑑(𝜇𝑖, 𝜇𝑗) (2.41)

Ako je ispunjeno da je 𝑑(𝑜, 𝜇_𝑖) ≥ 𝑑(𝜇𝑖, 𝜇𝑗) − 𝑑(𝑜, 𝜇𝑗) i ako je zadovoljen sljedeći uvjet

𝑑(𝜇𝑖, 𝜇𝑗) ≥ 2𝑑(𝑜, 𝜇𝑖) može se zaključiti da vrijedi 𝑑(𝑜, 𝜇𝑗) ≥ 𝑑(𝑜, 𝜇𝑖). U tome slučaju

izbjegnuto je računanje udaljenosti 𝑑(𝑜, 𝜇_𝑗). Budući da broj grozdova manji od broja objekata onda se udaljenosti između svih parova središta izračunava u kratkom vremenu prije svake