Neural Network Based Image Segmentation

(1)

VYSOKÉ U

Č

ENÍ TECHNICKÉ V BRN

Ě

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA

Č

NÍCH TECHNOLOGIÍ

ÚSTAV PO

Č

ÍTA

Č

OVÉ GRAFIKY A MULTIMÉDIÍ

FACULTY OF INFORMATION TECHNOLOGY

DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

SEGMENTACE OBRAZU POMOCÍ NEURONOVÉ SÍT

Ě

DIPLOMOVÁ PRÁCE

MASTER’S THESIS

AUTOR PRÁCE

BC. SO

Ň

A JAMBOROVÁ

AUTHOR

(2)

VYSOKÉ U

Č

ENÍ TECHNICKÉ V BRN

Ě

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA

Č

NÍCH TECHNOLOGIÍ

ÚSTAV PO

Č

ÍTA

Č

OVÉ GRAFIKY A MULTIMÉDIÍ

FACULTY OF INFORMATION TECHNOLOGY

DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

SEGMENTACE OBRAZU POMOCÍ NEURONOVÉ SÍT

Ě

NEURAL NETWORK BASED IMAGE SEGMENTATION

DIPLOMOVÁ PRÁCE

MASTER’S THESIS

AUTOR PRÁCE

BC. SO

Ň

A JAMBOROVÁ

(3)

Abstrakt

Tato práce se zabývá návrhem softwaru pro segmentaci obrazu pomocí neuronové sítě_{. Definuje} nezbytné základní pojmy v této problematice. Zaměř_{uje se hlavn}ě_{na p}ř_{ípravu obrazových informací} pro segmentaci pomocí neuronové sítě_{. Popisuje a porovnává r}ů_{zné p}ř_{ístupy k segmentaci obrazu.}

Abstract

This work is about suggestion of the software for neural network based image segmentation. It defines basic terms for this topics. It is focusing mainly at preperation imaging information for image segmentation using neural network. It describes and compares different aproaches for image segmentation.

Klí

č

ová slova

Segmentace obrazu, neuronová síť_{, neuron, Kohonenova sí}ť_{, radiální bázová funkce, k-means} algoritmus, SOM, self-organized map, mediánový filtr, Gaussů_{v šum, Gauss}ů_{v filter, Gaborova} funkce, HSV, RGB, klasifikace, shlukování.

Keywords

Image segmentation, neural network, neuron, Kohonen neural net, radial base function, k-means algorithm, SOM, self-organized map, median filter, Gaussian noise, Gaussian filter, Gabor function, HSV, RGB, classification, clustering.

Citace

Jamborová Soň_{a: Segmentace obrazu pomocí neuronové sít}ě_{, diplomová práce, Brno, FIT VUT} v Brně_{, 2011}

(4)

Segmentace obrazu pomocí neuronové sít

ě

Prohlášení

Prohlašuji, že jsem tuto diplomovou práci vypracovala samostatně_{pod vedením Ing. Pavla Žáka.} Další informace mi poskytl Ing. Miroslav Švub.

Uvedla jsem všechny literární prameny a publikace, ze kterých jsem č_erpala.

……… Soň_{a Jamborová} 27.7.2011

Pod

ě

kování

Dě_{kuji vedoucímu diplomové práce Ing. Pavlu Žákovi a konzultantovi Ing. Miroslavu Švubovi za} udě_{lené rady a pomoc p}ř_{i vypracovávání této práce.}

(5)

Obsah

Obsah ...1 1 Úvod...3 2 Zpracování obrazu ...4 2.1 Reprezentace obrazu ...4 2.2 Vlastnosti obrazu...8

2.3 Operace nad obrazem ...11

3 Neuronové sítě_...15 3.1 Biologický neuron ...15 3.2 Umě_{lý neuron...15} 3.3 Neuronové sítě_...17 3.4 Použití neuronových sítí...19 4 Segmentace obrazu ...23

4.1 Definice segmentace obrazu...23

4.2 Definice objektu (segmentu) ...24

4.3 Segmentač_{ní algoritmy...25}

4.4 Kvalita segmentace ...26

5 Návrh segmentač_{ního systému...29}

5.1 Zhodnocení problematiky a stanovení cílů_...29

5.2 Výbě_{r segmenta}č_{ních metod ...31}

5.3 Př_{íprava trénovací a testovací sady ...33}

5.4 Volba prostoru př_íznaků_...35

5.5 Optimalizace algoritmů_...37

5.6 Př_{edzpracování segmentovaného obrazu ...38}

5.7 Zhodnocení výsledků_{segmentace...39}

5.8 Vytvoř_{ení struktury dat pro segmentaci ...39}

6 Implementace segmentač_{ního systému ...44}

6.1 Vývojové prostř_{edí ...44}

6.2 Knihovny...44

6.3 Př_{ínos objektov}ě_{orientovaného p}ř_{ístupu programovacího jazyka Java vzhledem k návrhu} systému...46

6.4 Implementace grafického rozhraní...48

6.5 Generátor textury...49

6.6 Generátor syntetických obrazů_...52

(6)

6.8 Správce filtrů_...54

6.9 Generátor množiny dat ...56

6.10 Segmentač_{ní algoritmus ...58}

6.11 Hodnocení segmentace...63

7 Experimentální č_ást...65

7.1 Experiment 1 – zmapování vlastností implementované Kohonenovy mapy I ...65

7.2 Experiment 2 - zmapování vlastností implementované Kohonenovy mapy II ...70

7.3 Experiment 3 – segmentace reálných obrazů_...74

8 Další možnosti rozvoje systému ...79

8.1 Generování realistič_tě_{jších textur...79}

8.2 Paralelní zpracování algoritmů_...79

8.3 Rozšíř_{ení množiny segmenta}č_{ních algoritm}ů_...80

(7)

1

Úvod

V dnešní době_{se lidé snaží}č_{ím dál více využívat po}č_ítač_{ové systémy v b}ě_{žných úkonech. Rádi by} jim dali jistou míru nezávislosti a stability v č_{innostech, které}č_lově_{k d}ě_{lá s rutinou, ale jejichž} provedení zabírá relativně_hodně č_{asu nebo existuje mnoho ukazatel}ů_{, které mohou ovlivnit lidský} úsudek. Proto se nejč_astě_{ji tyto systémy využívají hlavn}ě_{v oborech, ve kterých záleží na lidském} životě_(lékař_{ství, automobilismus, …). Dnešní po}č_ítač_{ové systémy jsou založeny p}ř_{edevším na tom,} aby daly prostř_{edí ur}č_{ité objektivní m}ěř_{ítko, podle kterého se m}ů_žeč_lově_{k rozhodovat (vzdálenost} př_{ekážky p}ř_{i parkování automobilu, krok pro posun robotického ramena p}ř_{i operaci apod.). Je však} otázka č_{asu, kdy se po}č_ítač_{ové systémy posunou op}ě_{t na vyšší úrove}ň_.

Klíč_{ovým úkolem po}č_ítač_{ových systém}ů_{je získávání informací o prost}ř_{edí, ve kterém se daný} systém pohybuje. Vezmeme-li si inspiraci v č_lově_{ku, pak zjistíme, že se rozhoduje p}ř_{edevším na} základě_{zraku. Zrakem vnímáme zhruba 80 % všech informací, které obdrží lidský mozek. Možná} proto se ř_{íká, že jeden obrázek vydá za 1000 slov. Po}č_ítač_{ové systémy dokáží podobn}ě_{jako lidské} oko reprezentovat obrazové informace z okolí. Pro statické scény využívá obrazových formátů_nebo pro dynamické scény rů_{zné formáty videa.}

Živé organismy po celém svě_tě_{zvládají segmentaci obrazu ve zlomcích sekund. Tuto službu} (mimo jiné dů_{ležité funkce) jim zajiš}ť_{uje nervová soustava, která zpracovává i signály ze zrakových} orgánů_{. V p}ř_írodě_{je hodn}ě_vjemů_{subjektivních. Každý organismus jinak vnímá stejné vjemy (psi –}

č_{ernobílé vid}ě_{ní; prvoci – sv}ě_tloč_{ivné skvrny; poruchy vid}ě_{ní u}č_lově_{ka – šedý zákal, barvoslepost} apod.). Stroje by mohly př_{inést do oblasti vid}ě_{ní jistou dávku objektivity. Nabyté znalosti by se} mohly př_{enášet po celém sv}ě_tě_{. Neuronová sí}ť_{má pro tyto ú}č_{ely dobré p}ř_{edpoklady. Snaží se p}ř_evést znalosti o nervové soustavě_{do digitální podoby a zajistit tak její p}ř_{enositelnost.}

Má práce bude zaměř_{ena na zpracování obraz}ů_{, protože je základem i pro zpracování videa.} Obraz však postrádá informace týkající se dynamiky pohybu. Zaměř_{uje se na lokalitu, rozm}ě_ry a barevné vlastnosti vnímané scény.

Cílem mé diplomové práce je experimentovat s neuronovou sítí pomocí softwaru, který bude pro tento úč_{el vytvo}ř_{en. P}ř_edmě_{tem experiment}ů_{bude standardizace práce s neuronovou sítí pro} úč_{ely segmentace. Dále zjišt}ě_{ní optimálních parametr}ů_{zvolených algoritm}ů_{segmentace pro} uspokojivé výsledky a volba referenč_{ního algoritmu, který je dnes b}ě_žně_{využíván. Cílem diplomové} práce je urč_{it, zda neuronové sít}ě_{mohou p}ř_{inést lepší výsledky pro zpracování obrazu než dnes} užívané metody.

Tento dokument se bude zabývat ujasně_{ním pojm}ů_{, za}č_leně_{ním problematiky do širšího} kontextu a návrhem vhodného segmentač_{ního systému. Na záv}ě_{r shrne výsledky experiment}ů_{, které} byly pomocí ně_{ho získány, za}ř_{adí daný systém mezi již existující metody zabývající se touto} problematikou, uvede jeho př_{ínos pro uživatele a nastíní možnosti dalšího rozvoje.}

(8)

2

Zpracování obrazu

Zpracování obrazu zahrnuje techniky, které dokáží analyzovat obsah obrazu. Mezi ně ř_adíme i segmentaci obrazu. Ta využívá základní operace nad obrazem, aby dosáhla stabilního výsledku. Základní operace umožň_{ují zvýraznit nebo utlumit d}ů_{ležité charakteristiky obrazu a extrahovat} ně_{které vlastnosti, které nejsou na první pohled patrné, ale pro další zpracování jsou d}ů_ležité.

Kapitola se bude vě_{novat definování základních pojm}ů_potř_{ebných p}ř_{i p}ř_{edzpracování obrazu} pro jeho následnou segmentaci, která bude zař_{azena až v dalších kapitolách. Jde p}ř_edevším o ujasně_{ní, jaké informace m}ů_{že obraz reprezentovat a metodiku jejich získávání.}

2.1

Reprezentace obrazu

Obraz je obecně_{jakékoliv grafické vyjád}ř_{ení. Obsah obrazu bývá zachycen pomocí optických soustav} (fotoaparáty, kamery, oko, svě_tloč_{ivné skvrny, …), které využívají optických jev}ů_{(odraz sv}ě_{tla, lom} svě_{tla, pohlcování sv}ě_{tla, vyza}ř_{ování sv}ě_{tla, …), což umožní rozlišit jednotlivé materiály a tvary} znázorně_{ných objekt}ů_{. Takto po}ř_{ízený obraz lze dále zpracovávat a p}ř_iř_{adit mu význam pomocí} nervové soustavy (př_{irozené pro}č_lově_{ka a zví}ř_{ata – subjektivní vjem) nebo po}č_ítač_{e (matematický} model – objektivní vjem).

V dnešní době_{stále p}ř_{evládá ztvárn}ě_{ní obrazu ve 2D prostoru. Obraz tedy zachycuje} 3D objekty a transformuje je do roviny (např_{. fotky, ...). Obsah obrazu m}ů_{žeme vyjád}ř_{it pomocí} barevného prostoru (

C

). Existují dva typy obrazu pro libovolný barevný prostor:

- Analogový obraz - obraz je definován jako spojitá funkce

C

h

w

I

:

0

,

×

0

,

→

, 2.1.1

- Digitální obraz – obraz je definován jako diskrétní funkce

{

x

N

x

w

} {

y

N

y

h

}

C

I

:

∈

;

0

≤

×

∈

;

0

≤

→

, 2.1.2

kde

w

je šíř_{ka obrazu,}

h

_{je výška obrazu a}

C

_{je barevný prostor. Analogový obraz je nevhodný pro} poč_ítač_{ové zpracování. Obsahuje nekone}č_ně_{mnoho hodnot, tudíž nikdy nem}ů_{že být celý zpracován} v reálném č_{ase. Z toho d}ů_{vodu bude v práci myšleno pod pojmem „obraz“ vždy digitální obraz nebo} bude implicitně_{uvedeno, že se jedná o „analogový obraz“.}

Barevný prostor reprezentuje rozložení barev v obraze. Existuje mnoho způ_sobů_reprezentace barvy. V reálném svě_tě_{je barva dána r}ů_{znou vlnovou délkou sv}ě_{tla, kterou daná optická soustava}

(9)

Pro úč_{ely strojového zpracování je tento model nepoužitelný (stejn}ě_{jako analogový model} obrázku). Proto byly vytvoř_{eny barevné modely, které r}ů_zně_{deformují barevný prostor:}

- Č_{ernobílý model}

o „vše anebo nic“,

o obsahuje pouze dvě_{barvy (}č_{erná – 0, bílá – 1),}

o možné reprezentovat na jednom bitu. - Model odstínů_šedi

o obsahuje více hodnot,

o znázorň_{uje úrovn}ě_{intenzity sv}ě_tla,

o označ_ení

G

C

- č_{asto reprezentován na jednom bajtu, tzn. 256 úrovní šedi.} - Barevný model

o zahrnuje mnoho dalších modelů_,

o př_evážně_{se skládají ze t}ř_{í složek ,}

o např_{. RGB, HSV, YUV a další,}

o možná konverze rů_{zné složitosti z jednoho formátu do druhého,}

o označ_ení 3

G

C

- č_{asto reprezentováno na t}ř_{ech bajtech, pro každou složku jeden bajt} s 256 úrovně_mi.

Pro úč_{ely diplomové práce jsem si vybrala obrazy využívající barevné modely RGB a HSV.}

Barevný model RGB (

C

_RGB

=

C

_G3) využívá tř_{í barevných složek (}č_{ervená - red;} zelená - green; modrá - blue). Jedná se o adaptivní míchání barev, kdy se jednotlivé složky sč_ítají a vytvář_{í sv}ě_{tlo o v}ě_{tší intenzit}ě_{. Model je základem dnes všech zobrazovacích za}ř_{ízeních a stal se} standardem pro uchování obrazu v rů_{zných formátech (BMP, PNG, …). Dokáže zaznamenat p}ř_{es 16} milionů_odstínů_{. To umožní zachycení scény v kvalit}ě_{, která neomezuje lidské vnímání. Jeho} nevýhodou je, že jakékoliv informace o pů_{vodu objektu je pot}ř_{eba vypo}č_ítat.

(10)

Barevný model HSV (

C

_HSV

=

C

_G3) využívá také tř_{í složek, které dohromady ur}č_{ují výslednou} barvu pixelu. Je však konstruován odlišně_{než RGB. Jednotlivé složky více odpovídají reálnému} vnímání barvy objektu (na základě_{optických jev}ů_):

- Odstín (hue)

o spektrální barva objektu nebo svě_{tla procházející objektem,}

o měř_{í se ve stupních: 0° - 360°.} - Sytost (saturation)

o př_ímě_{s jiné barvy, p}ř_{edstavuje sytost daného odstínu,}

o měř_{í se v procentech: 0 % – 100 %.} - Jas (value)

o kolik svě_{tla barva odráží,}

o měř_{í se v procentech: 0 % - 100 %,}

o samostatná složka jasu (hue = 0, saturation = 0) př_{edstavuje obraz v odstínech šedi.} Využití tohoto modelu pro úč_{ely segmentace obrazu se p}ř_{ímo nabízí. Model je schopen velmi} jednoduše oddě_{lit skute}č_{nou informaci o barv}ě_{objektu od vlivu osv}ě_{tlení. Nevýhodou tohoto modelu} je, že není až tolik standardizovaný a je potř_{eba ho vypo}č_{ítat z}č_astě_{ji používaných model}ů_{, jako je} tř_{eba RGB model.}

Obrázek 2-2: Ukázka míchání barev pomocí modelu HSV [10]

Transformace z RGB do HSV modelu je založena na př_epoč_{tu jednotlivých složek model}ů_. Nejdř_{íve je pot}ř_{eba vybrat minimální a maximální hodnotu ze složek}

r

_,

g

_,

b

_{z modelu RGB.} Maximální hodnotu budu označ_{ovat jako}

max

(

r

,

g

,

b

)

_{a minimální hodnotu jako}

min

(

r

,

g

,

b

)

_.

(11)

Složky

h

,

s

,

v

z modelu HSV se vypoč_{ítají podle vztah}ů_:











=

°

+

−

×

=

°

+

−

×

∧

=

°

+

−

×

≥

∧

=

°

+

−

×

=

)

,

min(

)

,

max(

;

0

)

,

max(

;

240

)

,

min(

)

,

max(

60

)

,

max(

;

120

)

,

min(

)

,

max(

60

)

,

max(

;

360

)

,

min(

)

,

max(

60

)

,

max(

;

0

)

,

min(

)

,

max(

60

b

g

r

b

g

r

b

g

r

b

g

r

b

g

r

g

r

g

b

g

r

b

g

r

b

g

r

b

g

r

b

g

r

b

g

r

b

g

r

b

g

b

g

r

b

g

r

b

g

r

b

g

r

b

g

h

p

2.1.3











−

=

jinak

b

g

r

b

g

r

b

g

r

s

;

)

,

max(

)

,

min(

1

0

)

,

max(

;

0

2.1.4

)

,

max(

r

g

b

v

=

2.1.5

Jednotlivé složky jsou v rozmezí, jak je uvedeno výše v popisu modelu. Složky

s

a

v

jsou udány v rozmezí 0 až 1, kdy

1

=

100

%. Zkusíme-li př_{evést odstíny šedi v RGB modelu, které jsou} vyjádř_{eny stejnými hodnotami jednotlivých složek, na hodnoty HSV, pak zjistíme, že transformace se} chová podle př_edpokladu:

- Složka

h

=

0

, protože minimum a maximum jsou si rovny. - Složka

s

=

0

, protože podíl minima a maxima je roven jedné.

- Složka

v

=

odstin

_

sedi

, protože maximum je rovno minimu a tudíž př_{edstavuje daný} stupeň_.

Transformace z HSV do RGB modelu je založena na př_epoč_{tu jednotlivých složek model}ů_. Nejdř_{íve je pot}ř_{eba vypo}č_{ítat její pr}ů_bě_{žné výsledky:}

6

mod

60









=

′

h

2.1.6

h

f

=

−

′

60

2.1.7

p

=

v

×

(

1

−

s

)

2.1.8

q

=

v

×

(

1

−

f

×

s

)

2.1.9

)

1

(

1

(

f

s

v

t

=

×

−

×

2.1.10

(12)

Jednotlivé složky

r

,

g

,

b

z modelu RGB se urč_{í následovn}ě_:













=

′

=

′

=

′

=

′

=

′

=

′

=

5

);

,

(

4

);

,

(

3

);

,

(

2

);

,

(

1

);

,

(

0

);

,

(

)

,

(

h

q

p

v

h

v

p

t

h

v

q

p

h

t

v

p

h

p

v

q

h

p

t

v

b

g

r

2.1.11

Složky

r

,

g

,

b

jsou v rozmezí hodnot 0 až 1. Transformace zachovává principy obou modelů_. Hodnota

h

′

urč_{uje základní barvy a hodnota}

f

_{je míra p}ř_{echodu mezi sousedními barvami. Vzorce} obou transformací jsou př_{evzaty z [8].}

2.2

Vlastnosti obrazu

Už víme, jak je možné reprezentovat obsah obrazu v digitální podobě_{. Je však t}ř_{eba si} uvě_{domit, že dva obrazy stejné scény nemusí mít nutn}ě_{identický barevný prostor. Na základ}ě_tohoto poznatku mů_{žeme rozd}ě_{lit obrázky na:}

- Syntetické obrázky

o vznikají na poč_ítač_i,

o víme př_{esný tvar i barvu,}

o barevné prostory dvou obrazů_{stejné scény jsou identické.} - Reálné obrázky

o vznikají snímáním fotoaparáty, kamerami, skenováním apod.,

o dochází k nepř_{esnostem p}ř_{i p}ř_{evodu analogového signálu (sv}ě_{tlo ze snímané} scény) na digitální obraz (diskrétní obrazový prostor),

o barevné prostory dvou obrazů_{stejné scény nejsou zpravidla identické.}

Z tohoto rozdě_{lení vyplývá, že syntetické obrázky jsou daleko lepší pro strojové zpracování. Bohužel} však právě_{díky své povaze nejsou p}ř_edmě_{tem zkoumání v oboru zpracování obrazu. Jde-li scéna} vytvoř_{it na po}č_ítač_{i, m}ů_{že se hned zanést informace o objektech (nap}ř_{. vektorovou grafikou)} a využitých algoritmech pro zanesení kazů_(např_{. typ a parametry naneseného šumu, úpravy jasu,} rozostř_{ení atd.), aby výsledný syntetický obraz byl co nejvíce realistický. Proto se zpracování obrazu} zaměř_{uje na reálné obrazy, u kterých není možné zajistit implicitní informace o objektech, a tudíž} vzniká potř_{eba je dodat jinou cestou. Nej}č_astě_{jší nedokonalosti snímání u reálných obraz}ů_jsou:

(13)

o jsou špatně_{viditelné osv}ě_{tlené objekty.} - Tmavý obraz

o vznikne př_{íliš krátkou dobou expozice,}

o na snímač_{dopadne málo sv}ě_tla,

o jsou dobř_{e viditelné osv}ě_{tlené objekty,}

o jsou špatně_{viditelné objekty ve stínu.} - Zašumě_{ný obraz}

o porucha snímání (vzorkování a kvantování obrazu),

o odklon od skuteč_{né hodnoty pixelu,}

o rů_{zné typy}

pepř_{a s}ů_{l – náhodný pixel zm}ě_ně_{n na minimální nebo maximální hodnotu,}

Gaussů_{v šum – náhodný pixel je zm}ě_ně_{n v návaznosti na jeho originální} hodnotu,

náhodný (bílý šum) – analogie k bílému svě_{tlu, obsahuje r}ů_{zné frekvence} šumu,

aditivní bílý šum – bílý šum je př_{idán k originálnímu obrazu.} - Špatně_zaostř_{ený obraz}

o dochází k rozmazání hranic objektu.

Na ukázku je př_{iloženo n}ě_{kolik obrázk}ů_{demonstrujících jednotlivé nedokonalosti.}

(14)

Obrázek 2-4: Tmavý obraz - není vidět interiér budovy, ale jsou vidět detaily sloupu

Lidské oko zvládne vidě_{t ve scén}ě_{z Obrázek}_{2-3 a Obrázek}_{2-4 interiér i exteriér.}

(15)

2.3

Operace nad obrazem

Tato podkapitola zachycuje možnosti explicitních úprav vlastností obrazu. Operace nad obrazem lze rozdě_{lit do t}ř_{í skupin podle velikosti okolí zpracovávaného pixelu:}

- Bodové

o prů_{chod po bodech,}

o např_{. úprava jasu, p}ř_{evod barevného prostoru, prahování.} - Lokální

o informace z malého okolí pixelu,

o např_{. konvoluce (jádra 3x3, 5x5, 7x7 pixel}ů_). - Globální

o informace z celého obrázku,

o např_{. ekvalizace histogramu.}

Dvojrozmě_{rná konvoluce je d}ů_{ležitou operací p}ř_{i lineárním zpracování obrazu. Základem je} tzv. konvoluč_{ní jádro neboli konvolu}č_{ní maska (}

h ,

( )

x

y

_{). Konvolu}č_{ní jádro o velikosti}

n

×

n

_se aplikuje na diskrétní obrazovou funkci (

I

( )

x

,

y

) následovně_:

( ) ( )

x

y

h

x

y

I

(

x

i

y

j

) ( )

h

i

j

I

k k i k k j

,

∗

=

∑ ∑

+

⋅

− = =− , kde









=

2

n

k

2.3.1

Konvoluce umožň_{uje definovat okolí pixelu jedním}č_{íslem. Lze tak jednotným zp}ů_sobem implementovat rů_{zné operace jen zám}ě_{nou masky. Tyto operace mohou mít vysokou efektivitu} (prů_mě_{rování, Gauss}ů_{v filtr, Gabor}ů_{v filtr, hranové detektory apod.).}

(16)

Obrázek 2-8: Př_{íklad použití Gaussova filtru – konvolu}č_{ní jádro (vlevo), originální obrázek (uprost}ř_{ed), výstup}

konvoluce (vpravo) [11]

Obrázek 2-9: Příklad zvýraznění hran pomocí konvoluce - konvoluční jádro (vlevo), originální obrázek (uprostř_{ed), výstup konvoluce (vpravo) [13]}

Gaborovy filtry patř_{í ke konvolu}č_{ním filtr}ů_{m pro klasifikaci a popis r}ů_{zných textur. Umož}ň_ují každému pixelu př_iř_{adit charakteristiku okolí a vyjád}ř_{it ji jedním}č_{íslem. Jsou schopny zachytit} frekvenci okolí pixelu v závislosti na jednotlivých smě_{rech 0° až 360°, ovšem jedno konvolu}č_{ní jádro} př_{edstavuje pouze jeden sm}ě_r.

Obrázek 2-10: Příklady jader Gabodrových filtrů [6]

Pro tvorbu rů_{zných jader je možné použít jedno mate}ř_{ské jádro a z n}ě_{j odvodit pomocí rotace} a změ_{ny velikosti jádra jiná. K vytvo}ř_{ení konvolu}č_{ních jader Gaborových filtr}ů_{slouží Gaborova} funkce, která je dána vztahem:

( )













+

′

⋅

=

′ + ′ −

ψ

λ

π

σ γ γ σ ψ θ λ

x

e

y

x

g

y x

2

cos

,

2 2 2 2 2 , , , , 2.3.2

(17)

o zadává se v procentech,

o hodnoty musí patř_{it mezi reálná}č_{ísla v}ě_{tší než 2.} - natoč_{ení (}

θ

₎

o udává natoč_{ení Gaborovy funkce,}

o hodnoty jsou v rozmezí 0 až 360°,

o svislá orientace Gaborových vlnek je př_{i 0°.} - fázový posun (

ψ

)

o udává posun v ose natoč_ení,

o hodnoty jsou v rozmezí -180 až 180°. - pomě_{r stran (}

γ

₎

o urč_{uje tvar funkce (kružnice nebo elipsa),}

o hodnoty v rozmezí 0 až 1,

o pro kružnici je hodnota rovna 1. Vztah je uveden v [15].

Obrázek 2-11: Vliv Gaborových filtrů na vstupní obrázek (vlevo nahoře). Uprostřed jsou uvedeny odezvy na jednotlivé použití Gaborových filtrů_{pro nato}č_{ení 0°, 90°, 45°,135° p}ř_{i nulovém posuvu a vlnové délce 7.}

Superpozicí těchto 4 filtrů získáme odezvu zachycenou v levém dolním obrázku. Další dva obrázky (v pravém sloupci) jsou superpozicí pro filtry 0°, 90°, 45°, 135°, kdy použité sady filtrů se liší vlnovou délkou. Pravý horní obrázek je odezvou na filtry s vlnovou délkou 2 a pravý dolní obrázek s vlnovou délkou 12. K filtraci byl použit software postupný z [15].

Jak je patrné z Obrázek 2-11, př_{i filtraci dochází k maximální odezv}ě_(znázorně_{na bílou} barvou) př_{edevším na hranách, které odpovídají zvolenému profilu. Profil je reprezentován} konvoluč_{ním jádrem. P}ř_{i malé vlnové délce dojde k zachycení sebemenších nerovností. V tomto}

(18)

př_ípadě_mů_{že být maximální odezva zp}ů_{sobena i šumem. P}ř_{i v}ě_{tších vlnových délkách dojde} k eliminaci malých nerovností, ale vzroste vliv hrany na okolí a tím pádem i k detekci širší hrany.

Histogram je statistická reprezentace obrazu. Č_{asto se znázor}ň_{uje jako sloupcový graf, kde} osa

x

označ_{uje jednotlivé hodnoty jasu}

x

∈

₀

,

255

_{a osa}

y

_označ_{uje po}č_{et pixel}ů_{, které mají} společ_{nou hodnotu jasu. Osa}

x

_{nemusí ozna}č_{ovat pouze hodnotu jasu, ale t}ř_{eba i zastoupení} jednotlivých složek v barevném modelu.

(19)

3

Neuronové sít

ě

Umě_{lá neuronová sí}ť_{je výpo}č_{etní model, který našel své uplatn}ě_{ní v um}ě_{lé inteligenci. Vychází} z biologické nervové soustavy. Ta má za úkol zachytit a zpracovat podně_{ty p}ů_{sobící na organismus} a zajistit odpovídající reakci na ně_.

3.1

Biologický neuron

Biologický neuron je základní stavební prvek nervové soustavy živoč_ichů_{. Je tvo}ř_en: - tě_{lem neuronu,}

- výbě_{žky neuronu}

o dendrity – šíř_{í informaci od axion}ů_př_{edchozího neuronu k t}ě_{lu neuronu,}

o axiony – šíř_{í informaci od t}ě_{la k dendrit}ů_{m následníka.}

Spojení mezi axiony a dendrity se nazývá synapse. Šíř_{ení vzruchu v nervové soustav}ě_{se d}ě_{je na} základě_akč_{ního potenciálu, který je v neurální membrán}ě_{a práh je dán propustností synapse.}

3.2

Um

ě

lý neuron

Umě_{lý neuron je výpo}č_{etní model biologického neuronu. Je tvo}ř_en: - tě_{lem neuronu (}

f

( )

u

act ) – aktivační funkce neuronu,

- spoji mezi neurony

o vstupy (

I

r

) – spojeny s výstupy př_{edchozích neuron}ů_{, každý vstup má svojí váhu} (

w

),

o výstup (

O

) – nese výsledek aktivač_{ní funkce dál.}

Synapse v tomto modelu nemá stejný význam jako v biologickém modelu. Je reprezentována pouze vahou daného vstupu neuronu. Každý vstup př_{edstavuje hodnotu ur}č_{ité vlastnosti, kterou má} př_idě_{lená váha za úkol potla}č_{it nebo zvýraznit.}

Lze ř_{íci, že stejn}ě_{jako konvoluce ve zpracování obrazu, p}ř_{edstavuje neuron v um}ě_{lé inteligenci} jednotný algoritmus pro celou škálu úkolů_{. Modifikaci vstupu pak ur}č_{uje typ použitých} matematických funkcí a zapojení neuronů_{do sít}ě_stejně_{, jako u konvoluce použití r}ů_{zných typ}ů_jader.

Neuron na základě_vstupů_{a vah vypo}č_{ítá tzv. bázovou funkci (}

f

( )

I

w

baze

r

,

), na jejímž základě urč_{í aktiva}č_{ní funkce výstup neuronu. Matematický model neuronu (}_N_{) je dán relací}

ℜ

→

ℜ

n

N

:

2 , která je urč_{ena p}ř_edpisem:

( )

(

f

I

w

)

f

O

N

_act _baze

r

,

:

=

, kde

I

=

(

1

,

I

₁

,

I

₂

,...,

I

_n

)

r

3.2.1

(20)

Aktivač_{ní a bázová funkce mohou mít r}ů_{zné p}ř_{edpisy podle zam}ěř_{ení úlohy, na kterou je} neuron aplikován. Aktivač_{ní funkce je dána relací}

:

ℜ

→

−

1

,

1

act

f

nebo

f

_act

:

ℜ

→

{ }

−

1

,

1

, př_ípadně_{s hrani}č_{ními hodnotami intervalu 0 a 1. Bázová funkce je dána relací}

ℜ

n

→

ℜ

baze

f

:

2

a rozhoduje o tom, jakým způ_sobem _neuron _rozdě_lí _prostor _na _dvě množiny

IN

=

{

I

N

( )

I

,

w

=

−

1

,

resp

.

N

( )

I

,

w

r

=

0

}

r

, OUT =

{

I N

( )

I,wr =1

}

r r . Rozlišujeme lineární a radiální bázovou funkci. Aktivač_{ní funkce ur}č_{uje, jak ostrá bude hranice mezi množinami (skoková,} po č_{ástech lineární, sigmoidní, …). V p}ř_ípadě_{radiální bázové funkce ur}č_{uje vzdálenost, pro kterou je} ještě_{prvek v prostoru za}ř_{azen do množiny IN.}

Obrázek 3-1: Rozdělení roviny - neuron s lineární bázovou funkcí

( )

∑

=

⋅

=

n i i i baze

I

w

I

w

f

0

,

r

Obrázek 3-2: Rozdělení roviny - neuron s radiální bázovou funkcí

f

_baze

( )

I

w

I

w

r

−

=

,

Z Obrázek 3-1 a Obrázek 3-2 je patrné, že pro obdobné rozdě_{lení roviny, jaké zvládne jeden} neuron s radiální bázovou funkcí, je potř_{eba alespo}ň_tř_{i neurony s lineární bázovou funkcí.}

(21)

Obrázek 3-4: Výstup neuronu a rozdělení roviny pomocí neuronu s radiální bázovou funkcí - aktivační funkce skoková (vlevo) nebo sigmoidní (vpravo)

Z Obrázek 3-3 a Obrázek 3-4 lze zjistit, že sigmoidní aktivač_{ní funkce dává prostor pro} prahování a odlazení menších nuancí, které se mohou objevit až v širším kontextu. Radiální bázová funkce společ_ně_{se sigmoidní aktiva}č_{ní funkcí umož}ň_{uje aproximaci Gaussovského rozd}ě_lení.

V poslední době_{se za}č_{alo experimentovat i s jinými funkcemi a velmi zajímavé výsledky} slibuje i př_{ímé použití Gaussovy funkce pro 2D prostor. Využívá se r}ů_{zných rozptyl}ů_{v daných osách.} Pak jeden neuron s touto bázovou/aktivač_{ní funkcí dokáže nahradit t}ř_{i neurony s klasickou radiální} bázovou funkcí nebo č_tyř_{i a více neuron}ů_{s lineární bázovou funkcí.}

Obrázek 3-5: Znázornění průběhu Gaussovy funkce pro 2D prostor [21]

3.3

Neuronové sít

ě

Spojením dvou a více neuronů_mů_{žeme kombinovat vlastnosti jednotlivých neuron}ů_{a umožnit tak} rozdě_{lení prostoru na dva a více podprostor}ů_{. Tato vlastnost má velký význam ve zpracování obrazu.} Neuronové sítě_{jsou mocný nástroj a lze je použít pro následující oblasti:}

- klasifikace, - shlukování, - asociace, - funkč_{ní aproximace,} - predikce, - optimalizace, - a další.

(22)

Existují algoritmy pro úpravu topologie a váhových vektorů_{(tzv. u}č_{ící algoritmy) neuronových sítí.} Díky tě_{mto algoritm}ů_{m mají neuronové sít}ě_{schopnost postupné aproximace funkce. Podle její} topologie je možné ř_{íci, které funkce dokáže aproximovat:}

- perceptron (1 neuron) - aproximace logických funkcí (AND, OR, NOT),

- 1 skrytá vrstva - aproximace libovolné booleovské funkce (XOR, …) a spojité ohranič_ené funkce,

- 2 skryté vrstvy - aproximace libovolné funkce.

Jak je uvedeno v [7]. Následnou úpravou váhových vektorů_{vybíráme funkci z množiny funkcí, které} lze danou topologií aproximovat. Z tohoto dů_{vodu jsou velice d}ů_{ležité u}č_{ící algoritmy.}

Uč_{ení sítí je vhodné pro aproximaci dané funkce. U}č_{ení probíhá na základ}ě_{tzv. trénovací} množiny dat a testovací množiny dat, aby se př_{edešlo k tzv. p}ř_euč_{ení sít}ě_{. P}ř_{i p}ř_euč_{ení sít}ě_dochází k tomu, že neuronová síť_dobř_{e rozpoznává data trénovací množiny, ale p}ř_{i použití na testovacích} datech (neoč_{ekávaných datech) selhává a ztrácí schopnost generalizace. Podle struktury trénovacích} dat rozlišujeme uč_ení:

- S uč_itelem

o Máme trénovací množinu dat, u kterých víme, kam je má neuronová síť_zař_adit.

o Dochází k výpoč_{tu odchylky výstupu od o}č_{ekávaného výsledku a následnému} př_epoč_{tu vah.}

o Pro testovací množinu dat existuje hodnotící funkce, která nám ř_{ekne, jak daná sí}ť uspě_la.

o Je vhodné pro klasifikaci, asociaci, apod. - Bez uč_itele

o Trénovací množina dat neobsahuje správné zař_azení.

o Existuje však hodnotící funkce, jejíž výsledek ř_{íká, jak moc je daný výstup} správný.

o Je vhodné pro shlukování, optimalizaci apod.

Také tyto př_{ístupy k u}č_{ení mohou jednotlivé neuronové sít}ě_rů_zně_{spojovat. Je t}ř_{eba dávat} pozor na použité vstupní vektory. Jeden nepatř_ič_{ný vstup je schopen narušit celý proces u}č_{ení. Pro} volbu trénovacích a testovacích dat neexistuje jednotný algoritmus výbě_{ru. Je t}ř_{eba vycházet} z problému, na který je neuronová síť_{aplikovaná. Existuje však zp}ů_{sob výb}ě_{ru správn}ě_{natrénované} sítě_{, který minimalizuje možnost výb}ě_{ru p}ř_euč_{ené sít}ě_{a zaru}č_{uje jistou míru generalizace. Jedná se} o cross-validaci.

(23)

testovací množinou (tzn.

S

krát). Na závě_{r ozna}č_{íme sí}ť_prů_mě_{rnou úsp}ě_{šností. Tento postup je} zdlouhavý.

3.4

Použití neuronových sítí

V této souvislosti bych se ráda zmínila o ně_{kolika typech neuronových sítí a rozvedla blíže jejich} zaměř_{ení i zp}ů_{sob u}č_ení.

Dopř_{edná neuronová sí}ť_{se skládá z n}ě_{kolika vrstev. Neurony jedné vrstvy mají na vstupu} výstupy všech neuronů_{vrstvy p}ř_{edcházející. Spoje jsou jednosm}ě_{rné a bez zp}ě_{tné vazby (odtud název} sítě_{- dob}ř_{edná). Neurony v jedné vrstv}ě_{se vzájemn}ě_neovlivň_{ují. Obecn}ě_{platí, že dop}ř_edná neuronová síť_{implementuje funkce dané relací:}

n m

DNS

:

ℜ

→

ℜ

, 3.4.1

kde

m

znač_{í po}č_{et vstup}ů_{(tedy po}č_{et neuron}ů_{ve vstupní vrstv}ě_),

n

_znač_{í po}č_{et výstup}ů_{(tedy po}č_et neuronů_{ve výstupní vrstv}ě_).

Vícevrstevná dopř_{edná neuronová sí}ť_{obsahuje minimáln}ě_dvě_vrstvy: - vstupní,

- výstupní.

Kromě_{nich m}ů_{že obsahovat také vrstvy skryté. P}ř_{esný návrh topologie sít}ě_{je dán specifi}č_{ností úlohy} a její návrh vychází ze simulač_{ních výpo}č_tů_{a experiment}ů_{. Jedná se p}ř_{edevším o up}ř_esně_ní:

- poč_{tu vrstev,}

- poč_{tu neuron}ů_{v jednotlivých vrstvách.}

Jak jsem se zmínila v př_{edchozí podkapitole, k aproximaci libovolné funkce sta}č_{í 2 skryté vrstvy} (dle zdroje [7]).

Nejč_astě_{ji se pro tento typ sít}ě_{volí jako u}č_{ící algoritmus Back Propagation. Pro použití tohoto} algoritmu je potř_{eba trénovací množina, která má k dispozici vstupní vektor sít}ě

x

r

_{a cht}ě_{ný výstupní} vektor sítě

y

r

_{. P}ř_epoč_{et jednotlivých vah neuron}ů_sítě_{vychází ze stanovení odchylky výstupu sít}ě_od vektoru

y

r

. Jedná se o chybu sítě_{. Algoritmus následn}ě_{prochází jednotlivé neurony od poslední} vrstvy (odtud název algoritmu - zpě_{tné ší}ř_{ení chyby) a stanoví se odchylka} l

i

δ

pro každý neuron

i

ve vrstvě

l

_{. Vlastní p}ř_epoč_{et vah} l

i

w

r

jednotlivých neuronů_{se op}ě_{t d}ě_{je pr}ů_{chodem sít}ě_{tentokrát od} první vrstvy. Váha neuronů_{se nastaví podle vzorce:}

)

(

)

(

)

(

)

1

(

k

w

k

x

k

w

_il_j

+

=

_il_j

+

µ

⋅

δ

_il

⋅

l_j , 3.4.2 kde

j

př_{edstavuje index ve vektoru vah,}

k

_{je iterace algoritmu,}

µ

_{je u}č_{ící konstanta (ur}č_{uje míru} konvergence) a

x

r

l je vektor vstupů_{pro danou vrstvu}

l

_{. U}č_{ení se provádí v:}

(24)

- epochách – jeden prů_{chod trénovací množinou.}

Uč_{ení se provádí tak dlouho, dokud algoritmus nep}ř_ekroč_{í stanovený po}č_{et epoch nebo sí}ť nedospě_{je ke stanovené chyb}ě_sítě_.

Obrázek 3-6: Schéma dopředné neuronové sítě se dvěmi skrytými vrstvami

Kohonenova mapa je oproti dopř_{edné neuronové síti jednovrstvá. Topologie sít}ě_{je tedy} založena na jedné vrstvě_{, která je zárove}ň_{vstupní i výstupní. V jednom}č_{asovém okamžiku m}ů_{že být} aktivní pouze jeden výstupní neuron. Neurony používají radiální bázovou funkci. To znamená, že váha neuronu př_{edstavuje st}ř_{ed shluku a každý neuron ve vrstv}ě_př_{edstavuje jeden shluk. P}ř_{i u}č_ení sítě_{se upravují váhy sousedních neuron}ů_{po získání nejlepšího neuronu pro daný vstupní vektor.}

Pro neoptimalizovanou Kohonenovu mapu jsou poč_áteč_{ní váhy neuron}ů_náhodně_voleny. Pomocí uč_{ícího algoritmu se váhy jednotlivých neuron}ů_rozprostř_{ou do prostoru tak, aby pokrývaly} všechna trénovací data. Kohonenovy mapy využívají soutě_{žní strategie u}č_ení.

Soutě_{žní strategie u}č_{ení je založena na u}č_{ení bez u}č_{itele. Bázová funkce neuron}ů_zastupuje hodnotící funkci. Algoritmus uč_{ení ur}č_{í tzv. vít}ě_{zný neuron. Jedná se o neuron, jehož váhový vektor} má nejblíže vstupnímu vektoru

x

r

_i. Neurony v okolí vítě_{zného neuronu upraví svoji váhu}

j

w

r

podle vztahu:

))

(

)

(

)

(

)

(

)

(

)

1

(

k

w

k

D

d

x

k

w

k

w

v

_j

+

=

r

_j

+

µ

⋅

r

_i

−

r

_j , 3.4.3 kde jednotlivé složky mají podobný význam jako u Back Propagation a funkce D(d) urč_{uje míru} vlivu uč_{ící funkce na sousední neurony podle vzdálenosti}

d

_{od vít}ě_{zného neuronu. Vzdálenost}

d

_je blíže popsána na Obrázek 3-8.

(25)

Obrázek 3-7: Schéma Kohonenovy mapy (SOM)

Obrázek 3-8: Detail rovinné mřížky neuronů pro Kohonenovu mapu spolu se znázorněním, kam až sahá přepočet vah při zvolení vítězného neuronu v závislosti na velikosti sousedství

Radial Basis Functions (dále již RBF) je druh dopř_{edné neuronové sít}ě_{. Topologie sít}ě_je založena na jedné skryté vrstvě_{obsahující neurony s radiální bázovou funkcí. Neurony v ostatních} vrstvách používají lineární bázovou funkci. Tato síť_seč_{asto používá pro klasifikaci vstupu. Po}č_et výstupů_sítě_{je založen na po}č_{tu t}ř_{íd, které chceme klasifikovat. Skrytá vrstva je schopna aproximovat} rů_{zné tvary podprostor}ů_.

(26)

Uč_{ení uvedené sít}ě_{probíhá na základ}ě_{Back Propagation (zdlouhavé). Využívá u}č_ení s uč_{itelem. Možné je použít algoritmus pro vytvo}ř_{ení topologie sít}ě_{Restricted Coulomb Energy} (dále RCE) na základě_{trénovací množiny. RCE je druh sít}ě_{typu RBF. Za}č_{ínáme tvo}ř_{it topologii sít}ě pouze na základě_vstupů_{. P}ř_{i sestavování topologie musíme alespo}ň_{jednou projít celou trénovací} množinu. Pro každý neuron ze skryté vrstvy spoč_{ítáme jeho vzdálenost od vstupu. Pokud vstup:}

- náleží k neuronu ze stejné tř_{ídy – p}ř_{ejdeme k dalšímu vstupu,}

- náleží k neuronu z jiné tř_{ídy – zmenšíme polom}ě_{r neuronu a p}ř_{idáme nový skrytý neuron} s váhou stejnou jako vstup,

- nenáleží žádnému neuronu – př_{idáme nový neuron s váhovým vektorem stejným, jako je} vektor vstupu do skryté vrstvy,

- nový neuron skryté vrstvy napojíme na výstupní neuron dané tř_ídy, - neexistuje-li výstupní neuron k dané tř_ídě_{vstupu, pak ho p}ř_idáme.

Trénovací množinu procházíme stále dokola tak dlouho, dokud už není potř_{eba m}ě_{nit topologii sít}ě_.

(27)

4

Segmentace obrazu

Segmentace obrazu je jedna z metod zpracování obrazu, která dokáže označ_{it v obraze plochy, které} korespondují s objekty ve scéně_{na základ}ě_{podobných vlastností jednotlivých pixel}ů_{. Jedná se} nejč_astě_{ji o materiál a barvu, které objekt reprezentují. Stejn}ě_{jako segmentace využívá konvoluci} a lineární filtraci pro zpracování obrazu. Vyšší metody zpracování obrazu mohou využít výstup ze segmentace obrazu pro další zpracování (např_{. charakteristika tvaru, pojmenování objekt}ů_{, zjišt}ě_ní rozmě_rů_objektů_atd.).

Kapitola se bude zabývat definicí základních pojmů_{pro segmentaci obrazu, vyty}č_{ení cíle} segmentace a př_{edstavení jednotlivých algoritm}ů_{, které mohou být implementovány v softwarové} č_{ásti diplomové práce.}

4.1

Definice segmentace obrazu

Segmentace obrazu

f

( )

x

,

y

je jeho dě_{lení na podobrazy}

n

R

₁

,

₂

,...,

tak, že podobrazy splň_ují následující kritéria:

- slouč_{ením všech podobraz}ů_{vznikne p}ů_{vodní obrázek}

U

( )

n i i

f

x

y

R

1

,

=

,

- dva rů_{zné podobrazy jsou vzájemn}ě_disjunktní

R

_j

∩

R

_i

=

∅

;

i

≠

j

,

- každý podobraz splň_{uje tvrzení (nap}ř_{. všechny pixely v podobraze}

i

R

mají „vlastnost“). Definice je uvedena v [1]. Pokud podobrazy zcela korespondují s objekty ve scéně_{, pak hovo}ř_íme o úplné segmentaci, jinak hovoř_{íme o}č_ásteč_{né segmentaci. Výsledkem segmentace je ozna}č_ení každého pixelu indexem segmentu (např_{. pr}ů_mě_{rné barvy segmentu,}č_{íslem, t}ř_{ídou, …), ke kterému} patř_í.

Poslední pravidlo z definice segmentace obrazu dává volnost v definování objektů_{. Lze tedy} segmentovat obraz na základě_rů_{zných p}ř_edpokladů_{, nap}ř_:

- objekt je tvoř_{en jednou barvou,}

- objekt má stejnou texturu na celém povrchu, - objekt je kruhové tě_leso,

(28)

Právě_{díky rozdílné definici objekt}ů_patř_{í segmentace obrazu mezi náro}č_{né operace zpracování} obrazu. Neexistuje jednotný algoritmus, který by se dal implementovat ve všech aplikacích. Využívá se rů_{zných p}ř_ístupů_{k segmentaci obrazu:}

- na základě_{hranových detektor}ů_, - na základě_regionů_{v obraze,} - statistické metody,

- hybridní metody, - znalostní segmentace.

Mezi další dů_{vody, pro}č_segmentač_{ní algoritmy}ř_{adíme k náro}č_{ným, je r}ů_{zná kvalita snímání obraz}ů_. Ně_{kdy i lidské oko velmi t}ě_{žce rozpozná jednotlivé objekty.}

Obrázek 4-1: Př_{íklad segmentace obrazu pomocí algoritmu Mean Shift [5]}

4.2

Definice objektu (segmentu)

Objekt mů_{že mít obtížnou definici. Jeho vlastnosti se}č_{asto m}ě_{ní vzhledem ke sm}ě_{ru zachycení 2D} scény. Např_{íklad obli}č_{ej má jiné vlastnosti z profilu a jiné zep}ř_{edu. Je však d}ů_{ležité, aby p}ř_ed zač_{átkem segmentace bylo jasné, jak je objekt definován pro danou úlohu.}

(29)

o má atomické vlastnosti

jednotná barva (textura),

jednoduchý tvar (n-úhelník, kružnice, elipsa). - Složené

o obecná definice objektu,

o skládá se z jednoduchých a složených objektů_,

o dá se popsat pomocí stromu

listy - jednoduché objekty,

uzly – jednotlivé podobjekty,

koř_{en - p}ř_{edstavuje vlastní složený objekt,}

o další vlastnosti mohou hrát roli

sousednost,

poloha,

a jiné.

Segmentace by př_{edevším m}ě_{la odhalit elementární objekty. Lze pak p}ř_iř_{adit t}ě_{mto objekt}ů_{m t}ř_ídu (židle, tužka, tlač_{ítko, sklenice, písmena, …). Následn}ě_př_{i hledání ur}č_{itého objektu aplikovat jeho} strom popisu na nalezené elementární objekty a rozhodnout, zda daný objekt je v obraze nebo ne.

Definice elementárního objektu se mě_{ní vzhledem k rozlehlosti scény. Pokud obraz obsahuje} např_{íklad pohled na psací st}ů_{l, pak jako elementární objekty bereme kalkula}č_{ku, tužky, pera, krabici} od cartrige apod. Tvoř_{í-li však v}ě_tšíč_{ást pohledu kalkula}č_{ka s krabicí od cartrige, pak jednotlivé} elementární objekty jsou tlač_{ítka, display, písmena,}č_íslice.

Př_{i segmentaci reálného obrázku budu klást d}ů_{raz na barevné vlastnosti objektu. Tvar lze ur}č_it dodateč_ně_{na základ}ě_{výstupu ze segmentace. Vlastnosti jednotlivých segment}ů_{lze vyjád}ř_it následovně_:

- všechny pixely v podobraze mají podobný odstín barvy,

- všechny pixely v podobraze mají podobnou charakteristiku textury.

4.3

Segmenta

č

ní algoritmy

Jedná se o algoritmy, které implementují vlastní segmentaci obrazu. Jak je popsáno výše, algoritmy mohou být vystavě_{né na r}ů_{zných principech. Nej}č_astě_{ji však na shlukování nebo klasifikaci. Obojí se} provádí nad tzv. prostorem př_íznaků_.

Prostor př_íznaků_př_{edstavuje n-dimenzionální prostor ur}č_{ený hodnotami jednotlivých} vlastností hledaného objektu. Vlastní segmentač_{ní algoritmus tento prostor rozd}ě_{lí do podprostor}ů_, které odpovídají jednotlivým objektů_{m zájmu.}

Klasifikace se dě_{je nad známou množinou objekt}ů_{, nap}ř_{. chceme-li na automatické lince} propustit pouze objekt s urč_{itými vlastnostmi, které známe (}č_{ervené jablko, zcela okrájenou}

(30)

bramboru, …). Pomocí jednotlivých algoritmů_{namodelujeme cht}ě_{né t}ř_{ídy (podprostory) a ur}č_ujeme, zda obraz patř_{í do této t}ř_{ídy nebo ne. Lze využít následující algoritmy:}

- Gaussian Mixture Models, - RBF.

Shlukování lze provádě_{t nad neznámou množinou objekt}ů_{. V daném prostoru p}ř_íznaků_{spojí ty} body, které mají k sobě_{nejblíže. Samoz}ř_ejmě_{algoritmus jde optimalizovat pro jistý typ scén tak, aby} shlukování probě_{hlo, co nejrychleji. Se vzr}ů_{stajícím po}č_{tem informací o segmentovaném obraze lze} jejich č_{innost urychlit (vhodné zvolení st}ř_edů_shluků_{, …). Algoritmy, které se užívají p}ř_{i shlukování,} jsou:

- k-means, - Mean shift,

- shlukování na základě_spojitosti, - Path-based.

Jedná se př_{edevším o itera}č_{ní algoritmy, které}č_{asem zmenšují svoji chybu. V}ě_{tší prostor bych tady} chtě_{la v}ě_{novat algoritmu k-means.}

Algoritmus k-means implementuje shlukování bodů_{v p}ř_{íznakovém prostoru. Je založen na} rozdě_{lení prostoru do}

k

_shluků_{. Každý shluk má sv}ů_{j st}ř_{ed (bod v prostoru p}ř_íznaků_{). Každý vstupní} vektor z množiny dat je zař_{azen do jednoho shluku, jehož st}ř_{ed je mu nejblíže. Po p}ř_iř_{azení všech} vstupních vektorů_{do jednotlivých shluk}ů_{jsou st}ř_{edy shluk}ů_př_epoč_{ítány tak, aby byly znovu st}ř_edem shluku. Opě_{t se projdou všechny vstupní vektory z množiny dat a jsou p}ř_iř_{azeny do jednotlivých} shluků_{. Vše se opakuje tak dlouho, dokud se st}ř_{edy shluk}ů_nemě_{ní nebo je p}ř_ekroč_{en po}č_{et iterací.}

Algoritmus musí př_{edem v}ě_dě_{t, kolik shluk}ů_{má vytvo}ř_{it. St}ř_{edy shluk}ů_{se inicializují náhodn}ě_.

4.4

Kvalita segmentace

Dů_ležitouč_{ástí segmentace je ur}č_{ení její kvality a celkové zhodnocení zvoleného algoritmu. Hodnotí} se př_edevším: - Vlastnosti segmentace o správnost zař_azení. - Vlastnosti algoritmu o robustnost, o schopnost generalizace,

(31)

segmentace. Z pohledu klasifikace pixelu mohou nastat tyto př_ípady: - pixel je identifikován správně

o true positive (objekt byl a mě_{l být identifikován)}

o pixel odpovídá popsanému objektu - pixel je identifikován na jiný objekt

o false positive (objekt byl a nemě_{l být identifikován)}

o pixel patř_{í k jinému objektu}

Z pohledu klasifikace objektu (segmentu) mohou nastat tyto př_ípady: - objekt je zcela obsažen v segmentu,

- segment je zcela obsažen v objektu, - jednomu objektu př_{ísluší více segment}ů_, - více objektů_př_{ísluší jednomu segmentu.}

Následující série obrázků_{se bude v}ě_{novat možným chybám segmentace obrazu. Barevné plochy} odpovídají nalezeným segmentů_m,č_{erné tvary ozna}č_{ují hranice reálných objekt}ů_.

Obrázek 4-2: Ukázka správné segmentace – objekty jsou zcela obsaženy v segmentu a zároveň segment je zcela obsažen v objektu

Obrázek 4-3: Porucha segmentace – šedý segment je zcela obsažen v pozadí, pozadí zasahuje do tří segmentů;

červený segment zasahuje do pozadí scény a také pokrývá pouze část objektu; žlutý segment zcela obsahuje objekt a navíc zasahuje do dvou dalších objektů_.

(32)

Obrázek 4-4: Porucha segmentace - hranice objektu jsou definovány správně_{, vlivem šumu a textury je uvnit}ř

objektu nalezeno více stejných segmentů, které nepřekračují hranici objektu, ale narušují výsledek segmentace

Bylo by vhodné vytvoř_{it zp}ů_{sob hodnocení, který dokáže zachytit všechny poruchy kvality} segmentace č_íselně_{. P}ř_{i hodnocení segmentace je rozhodující, na jaký objekt se daný pixel segmentu} mapuje. Jedná se tedy o statistickou informaci, jaká č_{ást pixel}ů_{segmentu odpovídá jednotlivým} objektů_{m ze scény.}

Tabulka 4-1: Statistická informace o tom, kolik procent pixelů daného segmentu z Obrázek 4-4 odpovídá

stejnému objektu

Barva segmentu Objekt Odpovídající část segmentů

šedá pozadí 100%

č_ervená _objekt1 _100%

žlutá objekt2 100%

zelená objekt1 100%

modrá objekt2 100%

Je vidě_{t, že tahle metrika úpln}ě_nestač_{í. Segmentace by se mohla zdát v po}ř_{ádku. Je t}ř_{eba mít} i pohled opač_ný.

Tabulka 4-2: Statistická informace o tom, kolik procent pixelů daného objektu z Obrázek 4-4 odpovídá

stejnému segmentu

Objekt Barva segmentu Odpovídající část objektu

objekt1 červená 95%

objekt1 zelená 5%

objekt2 žlutá 96%

objekt2 modrá 4%

(33)

5

Návrh segmenta

č

ního systému

Diplomová práce obsahuje i praktickou č_{ást, jejímž úkolem je vyvinout softwarové zázemí pro} segmentaci obrazu pomocí neuronové sítě_{. Cílem je vytvo}ř_{it p}ř_{ehlednou a intuitivní aplikaci, která} umožní práci s jednotlivými segmentač_{ními algoritmy.}

Tato kapitola má č_tenář_{i vysv}ě_{tlit vyšší princip segmenta}č_{ního systém}ů_{, p}ř_{edstavit vlastnosti} jednotlivých algoritmů_{v širším kontextu a nahlížet na n}ě_{jako na tzv.}č_{erné sk}ř_íň_{ky. Rozebírá jen} možnosti propojení algoritmů_{a o}č_{ekávanou modifikaci vstup}ů_{na výstupy. Vlastní implementace} bude popsána v další kapitole.

5.1

Zhodnocení problematiky a stanovení cíl

ů

Základním cílem je vytvoř_{ení zázemí pro segmentaci obrazu a optimalizaci zvolených algoritm}ů_. Implementovaná aplikace by mě_{la nabízet:}

- intuitivní ovládání, - př_{ehledné GUI,}

- klást minimální nároky na znalost uživatele, - dovolit mě_{nit parametry pro zkušené uživatele.}

Pro úč_{ely této diplomové práce jsem zvolila 2 segmenta}č_{ní metody. Jedna zastupuje neuronové} sítě_{a druhá je zástupcem klasických metod. Segmenta}č_{ní algoritmy jsou jádrem celého systému a od} jejich č_{innosti se odrážejí další} č_{ásti systému. Oba algoritmy by m}ě_{ly být v celém postupu} zamě_{nitelné, aby bylo možno porovnat jejich výsledek za stejných podmínek. Celý segmenta}č_ní systém je založen na č_tyř_{ech fázích segmenta}č_{ního procesu:}

- př_{íprava trénovací množiny,} - př_{íprava testovací množiny,}

- adaptace zvoleného algoritmu na trénovací množinu, - zhodnocení algoritmu na testovací množině_.

Dů_{ležité je uv}ě_{domit si, že není p}ř_{edem znám objekt zájmu a jedná se o obecnou skladbu} obrázků_urč_{ených k segmentaci (krajina, portréty, zátiší atd.). Z tohoto d}ů_{vodu by m}ě_{l mít uživatel} možnost zasáhnout do výbě_{ru trénovací množiny, aby byl schopen si algoritmus optimalizovat pro} svoje data. Volnost uživatele ve volbě_{trénovacích dat pro u}č_{ení algoritmu by m}ě_{la za}č_{ínat výb}ě_rem trénovacích obrázků_{, konvolu}č_{ních filtr}ů_{pro p}ř_edpř_{ipravení vstupních obraz}ů_{a kon}č_{it vytvo}ř_ením vektoru př_íznaků_{(barevný model, textura).}

Jak bylo uvedeno dř_{íve, existují dv}ě_{metody u}č_{ení neuronových sítí, které ovliv}ň_{ují celkový} proces segmentace. Př_{i volb}ě_uč_{ení bez u}č_{itele je záv}ě_reč_{né zhodnocení spíše statistické než pevn}ě dané. Př_{esto je tato}č_{ást velmi d}ů_{ležitá pro dodání objektivního charakteru celému segmenta}č_nímu

(34)

systému. Další významnou roli hraje rozhraní pro jednoduché nastavení uč_{ících algoritm}ů_{, aby bylo} možné dané segmentač_{ní algoritmy zkoumat z r}ů_{zných úhl}ů_{a co nejlépe p}ř_{ipravit na danou úlohu.}

Od navržených segmentač_{ních metod se odvíjí i množina úkon}ů_{, které je nutné implementovat} pro pohodlí uživatele. Samozř_ejmě_{se jedná o experimentální}č_{innost a neuronové sít}ě_{nabízí širokou} škálu zajímavých algoritmů_{a nastavení. Vytvo}ř_{it efektivní grafické rozhraní a p}ř_{itom neomezovat} pokroč_{ilého uživatele je velmi obtížný úkol. Proto bych segmenta}č_{ní systém cht}ě_{la rozd}ě_{lit do dvou} č_ástí:

- grafické rozhraní pro segmentač_{ní systém a}

- knihovna pro segmentaci pomocí zvolených algoritmů_.

V tomto dokumentu se př_{edevším zam}ěř_{ím na první}č_{ást a to z d}ů_{vodu, že p}ř_{edstavuje nástavbu pro} ovládání segmentač_{ních algoritm}ů_{podle pot}ř_{eb vzniklých p}ř_{i jejich základním porovnání a mapování} možností dalšího rozvoje. Vlastní knihovna je pak pouze prostř_{edek, který je nutný implementovat.} Knihovna sama o sobě_neř_{íká nic o tom, jak se jednotlivé algoritmy propojí ve výsledný segmenta}č_ní systém, protože musí zaruč_{it její maximální rozši}ř_{itelnost a znovu použitelnost algoritm}ů_{pro ú}č_ely dalších systémů_.

Pro vhodný návrh grafického rozhraní a základních rysů_{knihovny bylo použito n}ě_kterých diagramů_patř_{ících ke standardu UML, který slouží pro návrh aplikací v r}ů_{zných úrovních abstrakce.} Tato fáze návrhu je dů_{ležitá p}ř_{edevším pro stanovení d}ů_{ležitých rys}ů_.

(35)

Aplikace musí být dále schopna spolupracovat s jinými standardními aplikacemi pro lepší kontrolu a pro změ_{nu dat v procesu u}č_{ení p}ř_{es uložené soubory obsahující:}

- obrazové informace,

- nastavení segmentač_{ní metody,}

- použité prostory př_íznaků_{a testovací data,} - automatické nastavení formulářů_.

Pro tyto úč_{ely je pot}ř_{eba využit voln}ě_{dostupné formáty jako jsou bmp, jpeg, png pro obrazové} formáty, XML pro nastavení aplikace a CVS pro statistická data.

Shrnutí jednotlivých cílů_:

- Vybrat a implementovat segmentaci založenou na:

o neuronových sítích,

o referenč_{ních metodách.}

- Vytvoř_{it dostate}č_ně_{velkou množinu syntetických dat s informací o objektech ve scén}ě_. - Automaticky optimalizovat metody nad urč_{itou sadou dat.}

- Navrhnout formát pro uložení/nač_{tení obrazu, optimalizovaných metod a množiny dat.} - Vybrat metody pro př_{edzpracování segmentovaného obrazu.}

- Vhodně_{zvolit metriky pro segmentaci obrazu.}

- Vytvoř_{it nejenom jednu komplexní aplikaci, ale vytvo}ř_{it i moduly, které se dají použít} samostatně_(např_{íklad jako knihovna).}

5.2

Výb

ě

r segmenta

č

ních metod

V této podkapitole se jedná př_{edevším o správnou volbu topologie neuronové sít}ě_{a vhodný} algoritmus uč_{ení tak, aby rychle ustálil. V druhé}ř_adě_{jde o volbu referen}č_{ního segmenta}č_ního algoritmu pro srovnání neuronové sítě_{s b}ě_žně_{využívanou metodou. Z toho d}ů_{vodu by ob}ě_metody mě_{ly být založeny na obdobném principu. Aplikace není zam}ěř_{ená na ur}č_{itý typ scén (kontrola} kvality produktu na automatickém pásu, …), ale jde o to zmapovat, jak se jednotlivé algoritmy chovají v rů_{zných scénách. Pro výb}ě_{r segmenta}č_{ních meto}