Image-Based Licence Plate Recognition

(1)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

E GRAFIKY A MULTIM ´

EDI´I

FACULTY OF INFORMATION TECHNOLOGY

DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

DETEKCE POZN ´

AVAC´I ZNA ˇ

CKY V OBRAZE

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

Bc. MICHAL VACEK

AUTHOR

(2)

VYSOK ´

E U ˇ

CEN´I TECHNICK ´

E V BRN ˇ

E

BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMA ˇ

CN´ICH TECHNOLOGI´I

´

USTAV PO ˇ

C´ITA ˇ

COV ´

E GRAFIKY A MULTIM ´

EDI´I

FACULTY OF INFORMATION TECHNOLOGY

DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

DETEKCE POZN ´

AVAC´I ZNA ˇ

CKY V OBRAZE

IMAGE-BASED LICENCE PLATE RECOGNITION

DIPLOMOV ´

A PR ´

ACE

MASTER’S THESIS

AUTOR PR ´

ACE

Bc. MICHAL VACEK

AUTHOR

VEDOUC´I PR ´

ACE

Ing. V´IT ˇ

EZSLAV BERAN

SUPERVISOR

(3)

Abstrakt

V prvn´ı ˇcásti se práce zabývá jiˇz známými metodami detekce znaˇcek. Jsou zde popsány metody vyuˇz´ıvaj´ıc´ı zpracován´ı obrazu, AdaBoost, ˇci detekci extrémn´ıch region˚u. Následuje návrh a implementace vlastn´ıho pˇr´ıstupu k detekci poznávac´ıch znaˇcek vyuˇz´ıvaj´ıc´ı lokáln´ı detektory k vytvoˇren´ı slovn´ıku vizuáln´ıch slov. V závˇeru je metoda vyhodnocena.

Kl´ıˇ

cov´

a slova

detekce, registraˇcn´ı znaˇcka, zpracován´ı obrazu, Houghova transformace, detekce hran, ver-tikáln´ı a horizontáln´ı detekce, lokáln´ı detektory, Harris-affine, MSER, EBR, IBR, SIFT, SURF, vizuáln´ı slovn´ık, PCA

Abstract

In first part thesis contains known methods of license plate detection. Preprocessing-based methods, AdaBoost-based methods and extremal region detection methods are described. Finally, there is a described and implemented own access using local detectors to creating visual vocabulary, which is used to plate recognition. All measurements are summarized on the end.

Keywords

detection, license plate, preprocessing, Hough transformation, edge detection, vertical and horizontal projection, local descriptor, Harris-affine, MSER, EBR, IBR, SIFT, SURF, visual vocabulary, PCA

Citace

(4)

Detekce pozn´

avac´ı znaˇ

cky v obraze

Prohl´

aˇ

sen´ı

Prohlaˇsuji, ˇze jsem tuto pr´aci vypracoval samostatnˇe pod veden´ım pana Ing. V´ıtˇezslava Berana

. . . . Michal Vacek 31. kvˇetna 2009

Podˇ

ekov´

an´ı

Rád bych podˇekoval Ing. V´ıtˇezslavu Beranovi, za vˇsechny nápady a pomoc s pˇr´ıpravou diplomové práce.

c

Michal Vacek, 2009.

Tato práce vznikla jako ˇskoln´ı d´ılo na Vysokém uˇcen´ı technickém v Brnˇe, Fakultˇe in-formaˇcn´ıch technologi´ı. Práce je chránˇena autorským zákonem a jej´ı uˇzit´ı bez udˇelen´ı oprávnˇen´ı autorem je nezákonné, s výjimkou zákonem definovaných pˇr´ıpad˚u.

(5)

Obsah

1 Uvod´ 3

2 Anal´yza dosavadn´ıho stavu 4

2.1 Metody vyuˇz´ıvaj´ıc´ı zpracov´an´ı obrazu . . . 4

2.1.1 Houghova transformace . . . 4

2.1.2 Hranov´e detekce . . . 5

2.1.3 Horizont´aln´ı a vertik´aln´ı projekce . . . 7

2.1.4 Konkr´etn´ı metody . . . 8

2.2 Metody zaloˇzen´e na AdaBoostu . . . 12

2.2.1 Sada dat . . . 12

2.2.2 V´ybˇer pˇr´ıznak˚u . . . 12

2.2.3 Shrnut´ı . . . 16

2.3 Metody zaloˇzené na rozpoznán´ı extrémn´ıch region˚u . . . 17

2.3.1 Shrnut´ı . . . 17

3 Visu´aln´ı slova pro detekci 19 3.1 Lok´aln´ı detektory . . . 19

3.1.1 Harris-affine. . . 20

3.1.2 EBR . . . 20

3.1.3 IBR . . . 21

3.1.4 SIFT a SURF. . . 22

3.1.5 MSER . . . 23

3.2 Vizu´aln´ı slovn´ık . . . 24

3.2.1 Anal´yza hlavn´ıch komponent (PCA) . . . 24

3.2.2 Shlukov´an´ı . . . 25

3.3 Vyhled´av´an´ı. . . 26

3.3.1 kd-strom . . . 27

3.3.2 Pr˚umˇerov´an´ı . . . 27

4 Tvorba a vyuˇzit´ı slovn´ıku 28 4.1 Tvorba slovn´ıku . . . 28

4.1.1 Tr´enovac´ı sada, anotace . . . 28

4.1.2 Detekce bod˚u . . . 29

4.1.3 Nastaven´ı parametr˚u . . . 29

4.1.4 Naˇcten´ı obr´azk˚u a detekovan´ych bod˚u . . . 30

4.1.5 Vytvoˇren´ı slovn´ıku . . . 31

4.2 Vyuˇzit´ı slovn´ıku . . . 32

(6)

4.2.2 Detekce . . . 33

5 Dosaˇzené výsledky 34 5.1 Vytváˇren´ı slovn´ıku . . . 34

5.2 V´ysledky detekce . . . 35

5.2.1 Testovac´ı sada . . . 36

5.2.2 Srovn´an´ı detektor˚u a jejich slovn´ık˚u . . . 36

5.2.3 Detekce na mal´ych obr´azc´ıch . . . 38

5.2.4 Natoˇcen´a ˇci zkosen´a znaˇcka . . . 38

5.2.5 Detekce na testovac´ı sadˇe . . . 39

5.2.6 Shrnut´ı . . . 42

6 Z´avˇer 47

(7)

Kapitola 1

´

Uvod

C´ılem mé diplomové práce je navrhnout a otestovat metodu pro detekci poznávac´ıch znaˇcek (dále jen znaˇcek) v obraze. Metody pro takovou detekci jiˇz existuj´ı, tud´ıˇz ve znaˇcné ˇcásti této práce se zabývám jejich porovnán´ım, shrnut´ım a analýzou dosavadn´ıho stavu proble-matiky. V druhé ˇcásti se vˇenuji navrˇzen´ı metody, pomoc´ı které bude moˇzné znaˇcku v obraze detekovat, d˚uvod˚um pro jej´ı zvolen´ı a samotné implementaci.

(8)

Kapitola 2

Anal´

yza dosavadn´ıho stavu

Detekce znaˇcek je jiˇz mnoha algoritmy zpracovaný a vyˇreˇsený problém, ovˇsem s r˚uznými výsledky. V následuj´ıc´ı ˇcásti uvedené metody se liˇs´ı spolehlivost´ı, robustnost´ı a rychlost´ı detekce. Jejich rozdˇelen´ı jsem provedl zhruba podle zp˚usobu, který k detekci pouˇz´ıvaj´ı. Jedná se pˇredevˇs´ım o metody zaloˇzené na zpracován´ı obrazu, vyuˇz´ıvaj´ıc´ı AdaBoost ˇci roz-poznáván´ı extrémn´ıch region˚u. Dalˇs´ı metody jako pouˇzit´ı neuronové s´ıtˇe je zm´ınˇeno alespoˇn v závˇeru.

Srovnán´ı metod je sloˇzité. Ovˇsem kvalitn´ı metoda mus´ı být co nejv´ıce robustn´ı v˚uˇci osvˇetlen´ı, natoˇcen´ı ˇci r˚uzným ˇsum˚um v obraze. D˚uleˇzitá je rovnˇeˇz rychlost, jelikoˇz mnoho metod má tendence být pouˇzity v reálném ˇcase. Mnohdy vˇsak plat´ı, ˇze ˇc´ım je metoda kvalitnˇejˇs´ı, t´ım je také pomalejˇs´ı...

2.1 Metody vyuˇ

z´ıvaj´ıc´ı zpracov´

an´ı obrazu

Tyto metody jsou zaloˇzeny na Houghovˇe transformaci 2.1.1, detekci hran 2.1.2, vlastnos-tech znaˇcky a analýzách histogram˚u 2.1.3. Slouˇz´ı k nalezen´ı kandidátn´ıch region˚u, z nich se posléze vyb´ıraj´ı ty, které skuteˇcnˇe obsahuj´ı znaˇcku. V této podkapitole nejdˇr´ıve shrnu pˇr´ıklady nejpouˇz´ıvanˇejˇs´ıch zpracován´ı obrazu a poté uvedu konkrétn´ı metody, kde se tyto zp˚usoby uplatnily.

Pro metody vyuˇz´ıvaj´ıc´ı zpracován´ı obrazu jsou dále velmi d˚uleˇzité vlastnosti znaˇcky, které v´ıme dopˇredu. Pomoc´ı tˇechto pˇr´ıznak˚u lze vybrat vhodné kandidátn´ı regiony. Zde je shrnut´ı nejpouˇz´ıvanˇejˇs´ıch vlastnost´ı.

• Znaˇcka je obdéln´ıkového tvaru s pomˇerem ˇs´ıˇrky k výˇsce 2-10. • Obsahuje ˇcerná p´ısmena na b´ılém pozad´ı.

• Nˇekter´e metody vyuˇz´ıvaj´ı pravdˇepodobnost, ˇze znaˇcka je um´ıstˇena v´ıce m´enˇe vodo-rovnˇe

2.1.1 Houghova transformace

Houghova transformace je metoda pro nalezen´ı parametrického popisu objekt˚u v obraze. Pouˇz´ıvá se pˇredevˇs´ım pro segmentaci objekt˚u, jejichˇz hranice lze popsat jednoduchými kˇrivkami, pˇri detekci znaˇcky pˇr´ımkami. Hlavn´ı výhodou této metody je robustnost v˚uˇci ne-pravidelnostem a pˇreruˇsen´ı hledané kˇrivky. Houghova transformace je vyuˇz´ıvána k nalezen´ı

(9)

parametr˚u matematického modelu hledaného objektu za pˇredpokladu známých vstupn´ıch dat (pixel˚u). Pro popis pˇr´ımky slouˇz´ı vzorec:

x cos θ + y sin θ = r, (2.1)

kde r je délka normály od pˇr´ımky k poˇcátku souˇradnic, θ je úhel mezi normálou a osou x. Jestliˇze do pˇredchoz´ı rovnice dosad´ıme souˇradnice nˇejakého bodu (xi, yi), pak mnoˇzina

vˇsech moˇzných ˇreˇsen´ı (r, θ) vytvoˇr´ı v Houghovˇe prostoru spojitou kˇrivku. Jestliˇze si t´ımto zp˚usobem prom´ıtneme do Houghova prostoru vˇsechny body leˇz´ıc´ı na nˇejaké pˇr´ımce p, pak uvid´ıme, ˇze kˇrivky odpovidaj´ıc´ı jednotlivým bod˚um (xi, yi) se protnou v jediném bodˇe

(rmax, θmax). Tato dvojice jsou ve skuteˇcnosti hledan´e parametry pˇr´ımky p. [19]

2.1.2 Hranov´e detekce

Jelikoˇz poznávac´ı znaˇcka je vˇzdy ohraniˇceného obdéln´ıkového tvaru, samozˇrejmˇe r˚uznˇe natoˇcená, lze ji v obraze nalést pomoc´ı detekce hran (obvodové hrany ˇci hrany p´ısmen uvnitˇr). Pokud hranu definujeme jako velkou zmˇenu jasové funkce, bude v m´ıstˇe hrany velká hodnota derivace jasové funkce. Maximáln´ı hodnota derivace bude ve smˇeru kolmo na hranu. Kv˚uli jednoduˇsˇs´ımu výpoˇctu se ale hrany detekuj´ı jen ve dvou, resp. ve ˇctyˇr smˇerech. Velká skupina metod na detekci hran aproximuje tuto derivaci pomoc´ı konvoluce s vhodným jádrem. Nejjednoduˇsˇs´ı taková jsou (-1 1) a (-1, 1)T, pˇr´ıpadnˇe (-1, 0, 1) a (-1, 0, 1)T. [20] V následuj´ıc´ıch podkapitolách jsou uvedeny pˇr´ıklady zp˚usob˚u detekc´ı hran. Konvoluˇcn´ı matice

Kaˇzdý obrazová operace (filtr) je definována konvoluˇcn´ı matic´ı. Ta urˇcuje, jakým zp˚usobem je daný pixel (reprezentován uprostˇred matice) ovlivnˇen okoln´ımi pixely (obr. 2.1). Pixel y je ovlivnˇen pixely x0. . . x8 podle vzorce:

y = x0xm0+ x1xm1+ x2xm2+ x3xm3+ x4xm4+ x5xm5+ x6xm6+ x7xm7+ x8xm8 (2.2)

Vertikáln´ı a horizontáln´ı hranová detekce

Detekovat horizont´aln´ı resp. vertik´aln´ı hrany m˚uˇzeme jednoduˇse pomoc´ı matice mhe resp.

mve (obr. 2.2). Pokud bychom pouˇzili vˇetˇs´ı matice, dok´aˇzeme zdetekovat i silnˇejˇs´ı hrany.

[15]

Sobelova hranov´a detekce

Sobelova detekce hran pouˇz´ıvá pár konvoluˇcn´ıch matic o velikosti 3x3. Prvn´ı je urˇcena k ohodnocen´ı vertikáln´ıch a druhý horizontáln´ıch hran (obr. 2.3). Výsledný pixel se poté vypoˇc´ıtá ze vzorce:

|G| =qG2

x+ G2y (2.3)

V praxi se ale pouˇz´ıv´a rychlejˇs´ı verze vzorce:

(10)

Obr´azek 2.1: Pixel je ovlivnˇen soused´ıc´ımi pixely podle konvoluˇcn´ı matice. [15]

Obr´azek 2.2: Pixel je ovlivnˇen soused´ıc´ımi pixely podle konvoluˇcn´ı matice. [15]

(11)

Obrázek 2.4: Výsledky aplikován´ı rank filtru a hranových detekc´ı. [15]

Rank filtry

Pˇredevˇs´ım horizontálnˇe a vertikálnˇe orientované rank-filtry jsou pouˇz´ıvány k detekci shluk˚u hran v m´ıstˇe znaˇcky. ˇS´ıˇrka matice pro horizontálnˇe orientovaný rank filtr je mnohem vˇetˇs´ı neˇz jej´ı výˇska (a obrácenˇe pro vertikálnˇe orientovaný filtr). K zachován´ı celkové intenzity obrazu je nutné nahradit kaˇzdý pixel pr˚umˇerem intenzity pixel˚u pˇrekrytých matic´ı. [15]

Konvoluˇcn´ı matice tedy splˇnuje:

w−1 X i=0 h−1 X j=0 mhr[i, j] = 1.0 (2.5)

kde w a h jsou rozmˇery matice.

2.1.3 Horizont´aln´ı a vertik´aln´ı projekce

Po ˇradˇe konvoluˇcn´ıch operac´ı m˚uˇzeme zdetekovat znaˇcku pomoc´ı statistických analýz v obraze. Existuje jich celá ˇrada, já zde uvedu pouze horizontáln´ı a vertikáln´ı projekci. Pokud vstupn´ı obrázek definujeme funkc´ı f (x, y), vertikáln´ı projekce py funkce f v bodˇe y je souˇcet

vˇsech

”významných“ pixel˚u v y-tém ˇrádku. Podobnˇe horizontáln´ı projekce v bodˇe x funkce f je souˇcet pixel˚u v x-tém sloupci.

Pokud tuto projekci poˇc´ıtáme z obrazu po proveden´ı vertikáln´ı hranové detekce, velikost kˇrivky v urˇcitém bodˇe reprezentuje výskyt vertikáln´ıch hran na daném ˇrádku. Z vertikáln´ıho grafu (obr. 2.5) lze vyˇc´ıst vertikáln´ı polohu dopravn´ı znaˇcky. Obdobnˇe m˚uˇze být pouˇzita horizontáln´ı projekce podle osy x.

(12)

Obr´azek 2.5: Vertik´aln´ı projekce v obraze. [15]

2.1.4 Konkr´etn´ı metody

V této kapitole uvádˇené metody jsou reprezentativn´ım vzorkem pˇr´ıstup˚u. Vˇsechny ostatn´ı metody zaloˇzené na zpracován´ı obrazu se liˇs´ı kombinacemi pouˇzitých zp˚usob˚u zpracován´ı ˇ

ci r˚uznými typy optimalizac´ı, principy detekce vˇsak z˚ustávaj´ı stejné.

An Efficient Implementation of the Hough Transform for Detecting Vehicle License Plates Using DSP

V roce 1995 zveˇrejnili Varsha Kamat a Subramaniam Ganesan metodu detekce poznávac´ı znaˇcky pomoc´ı Houghovy transformace. Rozhodl jsem se tuto metodu zm´ınit, protoˇze z tohoto ˇclánku vycház´ı mnoho dalˇs´ıch metod, coˇz dokazuj´ı zejména ˇcetné citace.

Nejdˇr´ıve pouˇzili Sobelovu detekci hran na obrázek ve stupn´ıch ˇsedi. Na nˇej poté apliko-vali adaptivn´ı prahován´ı, práh poˇc´ıtali z pr˚umˇerného jasu. Následuje jiˇz zm´ınˇená Houghova transformace k detekci pˇr´ımek v obraze. Ze vˇsech pˇr´ımek byly vybrány pouze ty horizontáln´ı a vertikáln´ı. Z nich poté hledaj´ı spojené pˇr´ımky do obdéln´ıku. [19]

Ideáln´ı nalezený ˇrˇetˇez pˇr´ımek, který by mˇel detekovat znaˇcku by mˇel obsahovat 4 pˇr´ımky (4 strany obdéln´ıka) a mus´ı spˇnovat:

• pˇr´ımky naproti sobˇe maj´ı stejné x resp. y souˇradnice poˇcáteˇcn´ıho a koncového bodu (záleˇz´ı pokud jsou horizontáln´ı ˇci vertikáln´ı), coˇz znamená, ˇze jsou stejné dlouhé • dále tyto pˇr´ımky jsou rovnobˇeˇzné

• pˇril´ehaj´ıc´ı pˇr´ımky pˇr´ımky jsou v ´uhlu 90◦

K testován´ı byla pouˇzita statická kamera, zab´ıraj´ıc´ı automobily v konstantn´ım úhlu. Pˇresnost detekce nen´ı v ˇclánku uvedena. Je zˇrejmé, ˇze metoda nen´ı robustn´ı a pˇri testován´ı

(13)

Obrázek 2.6: Na prvn´ım obrázku je provedena hranová detekce, na druhém po provedené Houghovˇe transformaci

na ˇsiroké ˇskále obrázk˚u by nemˇela velký úspˇech. Je to vˇsak jedna z prvn´ıch metod pro detekci znaˇcek.

An Efficient Features Based License Plate Localization Method

Hamid Mahini, Shohreh Kasaei, Faezeh Dorri a Fatemeh Dorri zaloˇzili svoji metodu na klasické kombinaci nalezen´ı kandidátn´ıch region˚u a jejich ovˇeˇren´ı pomoc´ı vlastnost´ı hledané poznávac´ı znaˇcky. [14] Pˇri hledán´ı kandidátn´ıch region˚u pouˇz´ıvaj´ı pˇredevˇs´ım toho, ˇze znaˇcka má mnoho vertikáln´ıch hran, které vytváˇr´ı tmavé znaky na svˇetlém pozad´ı. Dále pak také toho, ˇze intenzita kaˇzdého pixelu na znaˇcce je témˇeˇr stejná pro vˇsechny tˇri barevné ˇcásti (R, G, B), bud’ jsou pixely b´ılé nebo ˇcerné.

K nalezen´ı vertikáln´ıch hran pouˇz´ıvaj´ı sobelovu vertikáln´ı masku. Z´ıskané hrany jeˇstˇe vyhlad´ı. K odstranˇen´ı ˇsumu typu

”pepˇr a s˚ul“ pouˇzili 5x5 mediánový filtr. Na obrázku2.7 je p˚uvodn´ı a zpracováný obrázek.

Ke koneˇcnému nalezen´ı kandidát˚u jsou jeˇstˇe zapotˇreb´ı dalˇs´ı dva obrázky. Prvn´ı vytvoˇrili z p˚uvodn´ıho obrázku nastaven´ım pixel˚u na 1, pokud jejich intenzita vˇsech tˇr´ı sloˇzek (R,G,B) je shodná, ostatn´ı nastavili na 0. Druhý obsahuje pouze regiony, které maj´ı svˇetlé pozad´ı (obr.2.8). Tyto tˇri obrázky slouˇcili. Vybrali kandidáty, na které jeˇstˇe aplikovali prahován´ı (hodnota prahu uvedena nen´ı).

Aby byly z´ıskané regiony oznaˇceny jako poznávac´ı znaˇcka, mus´ı splnit následuj´ıc´ı kritéria: • region nesm´ı být pˇr´ıliˇs malý

• tvar regionu by mˇel být podobný obdéln´ıku a pomˇer mezi ˇs´ıˇrkou a výˇskou mus´ı být mezi 2 aˇz 10.

• pr˚umˇerná intenzita mus´ım být dostateˇcnˇe svˇetlá • region by se nemˇel dotýkat okraje obrázku • natoˇcen´ı regionu nesm´ı být vˇetˇs´ı jak 35%

Testován´ı metody bylo provádˇeno na sadˇe obrázk˚u o velikosti 800x600 pixel˚u zachy-cuj´ıc´ı reálné scény. Obrázky byly poˇr´ızeny za r˚uzných povˇetrnost´ıch podm´ınek, z r˚uzných ´

(14)

Obrázek 2.7: P˚uvodn´ı z zpracovaný obrázek. [14]

(podle autor˚u). Autoˇri vyzdvihuj´ı vlastnost algoritmu detekovat i znaˇcky uˇz od velikosti 1/50 velikosti p˚uvodn´ıho obrázku (pˇri velkém rozliˇsen´ı, jinak je hranice výˇsky znaˇcky 10px). Ostatn´ı podobné metody se pohybuj´ı okolo hranice 5% velikosti obrazu ˇci tuto vlastnost v˚ubec nemiˇnuj´ı.

Metoda byla otestována na 269 obrázc´ıch, 13 z nich ˇzádnou znaˇcku neobsahovaly. Algo-ritmus v tˇechto 13 obrázc´ıch ˇzádnou znaˇcku nedetekoval, ve zbylých byl úspˇeˇsný z 96.5%. Rychlost se pohybuje kolem 300ms/obrázek. Na závˇer je zd˚uraznˇena robustnost algoritmu v˚uˇci rozd´ılným svˇetelným podm´ınkám, st´ın˚um, malým obrázk˚um a natoˇcen´ı.

Vehicle License Plate Location Based on Histogramming and Mathematical Morphology

Tato metoda reprezentuje skupinu metod vyuˇz´ıvaj´ıc´ı histogramy obrazu. Popsali ji Feng Yang a Zheng Ma. [10] Pozn´avac´ı znaˇcku detekuj´ı ve ˇctyˇrech f´az´ıch:

• hrubá detekce region˚u zaloˇzená na zpracován´ı histogramu • extrakce kandidátn´ıch region˚u

• urˇcen´ı vertikáln´ı polohy znaˇcky za pomoc´ı matematické morfologie • pˇresné urˇcen´ı polohy znaˇcky pomoc´ı pˇr´ıznak˚u poznávac´ı znaˇcky

Diagram 2.9 znázorˇnuje pr˚ubˇeh pouˇzitého algoritmu. V prvn´ı ˇcásti se vyuˇzije toho, ˇze znaˇcka se skládá z ˇcerných p´ısmen na b´ılém pozad´ı, ˇcili po pˇrevodu obrázku do stupˇn˚u ˇsedi maj´ı jinou hodnotu. Vypoˇc´ıtáme pr˚umˇernou zmˇenu gradientu. V m´ıstech nˇejvˇetˇs´ıho výskytu pˇrechod˚u lze oˇcekávat poznávac´ı znaˇcku (obr. 2.10). Takto

”hrubˇe“ lze nalést kandidátn´ı regiony. Vertikáln´ı gradient lze snadno vypoˇc´ıtat ze vzorce

gv(i, j) = |f (i, j a 1) − f (i, j)|. (2.6)

Z obrázku 2.10 je patrné, ˇze region obsahuj´ıc´ı znaˇcku bude m´ıt velkou hodnotu hori-zontáln´ı projekce. Horizontáln´ı projekce vertikáln´ıho gradientu je znázornˇena na grafu2.11. Jak je ovˇsem vidˇet z grafu, nen´ı snadné vybrat jednoznaˇcnˇe jeden vrchol, který by detekoval

(15)

Obrázek 2.8: a)hrany po konvoluci b)kandidátmn´ı regiony c)zpracovávané kandidátn´ı regi-ony d)um´ıstˇen´ı znaˇcky [14]

(16)

znaˇcku v obraze. Proto je pouˇzit Gaussový filtr, jehoˇz výstup je na obrázku2.12. Po pouˇzit´ı filtru je jiˇz moˇzné urˇcit vrchol kˇrivky.

K z´ıskán´ı kandidátn´ıch region˚u nyn´ı pouˇzili dvˇe vlastnosti znaˇcek. Poznávac´ı znaˇcka leˇz´ı nejˇcastˇeji ve spodn´ı obrazu a maxima v horizontáln´ı projeci znaˇc´ı moˇznou horizontáln´ı polohu znaˇcky. C´ılem je tedy nalést maxima a minima jednotlivých vln kˇrivky, porovnat je a z´ıskat nejpravdˇepodopnˇejˇs´ı horizontáln´ı pozici znaˇcek. Z p˚uvodn´ıho obrázku je vyˇr´ıznut pruh s potenciáln´ı znaˇckou (obr.2.13).

Stejnˇe jako provedli horizontáln´ı projekci vertikáln´ıho gradientu, pouˇzili postupnˇe na vˇsechny kandidátn´ı regiony vertikáln´ı projekci horizontáln´ıho gradientu. Matematická mor-fologie je nelineárn´ı filtr k odstranˇen´ı ˇsumu, extrakci pˇr´ıznak˚u a ˇclenen´ı obrazu. Základn´ı operace jsou eroze a dilatace. Oznaˇcili vertikáln´ı projekci p´ısmenem A, pouˇzili jedno-dimenzionáln´ı prvek B k dilataci prvku A. Výsledek oznaˇcili jako C. Poté oznaˇcili prvek D urˇcený k erozi prvku C pˇri výsledku E.

K pozdˇejˇs´ımu vykreslen´ı znaˇcky, ke zrychlen´ı a zvýˇsen´ı pˇresnosti detekce, vybrali struk-turu sloˇzky podle geometrických vlastnost´ı vlastn´ı poznávac´ı znaˇcky. Pˇredpokládali, ˇze maximáln´ı mezera mezi znaky na znaˇcce bude a, výˇska znak˚u potom 4B. Délka struktury B by mˇela být (2a + 1) a struktury D (2b + 1). Z ˇrady test˚u vyˇsla hodnota a = 15 a b = 10. Výsledek tˇechto operac´ı je znázornˇen na grafu 2.14.

Následnˇe provedli prahován´ı s prahem t = 1.23 (hodnota urˇcena pˇri testován´ı) a vytvoˇr´ı ˇ

cernob´ılý obraz (obr. 2.15). Pˇri pr˚uchodu se zapamatuj´ı pˇrechody mezi b´ılou a ˇcernou a z nich se vypoˇc´ıtaj´ı ˇs´ıˇrky potenciáln´ıch znaˇcek, ty s malou odstran´ı. Dále se odstran´ı i regiony s pˇr´ıliˇs malým ˇci pˇr´ıliˇs velkým pomˇerem výˇsky a ˇs´ıˇrky. Zbylé regiony obsahuj´ı poznávac´ı znaˇcku.

Metodu testovali na 360 obrázc´ıch r˚uzných scén a s odliˇsnými podm´ınkami reálného svˇeta (natoˇcen´ı, osvˇetlen´ı, atd.). Velikost testovac´ıch obrázk˚u byla 600x450px. Pˇresnost detekce udávaj´ı 97.78%. Pˇri osmi obrázc´ıch detekce selhala. O rychlosti se v ˇclánku nezmiˇnuj´ı.

2.2 Metody zaloˇ

zen´

e na AdaBoostu

Jako pˇr´ıklad zde m˚uˇzeme uv´est metodu prezentovanou L. Dlagnekovem

”License Plate Detection Using AdaBoost“. [5] Zabývá se problémem, jak dobˇre lze metody zaloˇzené na detekci objekt˚u vyuˇz´ıvaj´ıc´ı rozpoznáván´ı textu a detekci obliˇceje vyuˇz´ıt v problému de-tekce poznávac´ıch znaˇcek. Silný klasifikátor trénovaný AdaBoost algoritmem slouˇz´ı k roz-poznáván´ı ˇcást´ı obrázku se znaˇckou a bez n´ı.

2.2.1 Sada dat

Podle ˇclánku byla pouˇzita sada 1500 obrázk˚u. Normalizace pouˇzita nebyla, protoˇze nemˇela pˇr´ıliˇsný vliv na výsledky a je výpoˇcetnˇe nároˇcnˇejˇs´ı. Pˇr´ıklady negativn´ıch region˚u (neobsahuj´ı znaˇcku) o velikosti 45 x 15 px, byly z´ıskány náhodnˇe z obrázk˚u, o kterých se v´ı, ˇze neobsahuj´ı poznávac´ı znaˇcku. Tˇech pouˇzili 5431.

2.2.2 V´ybˇer pˇr´ıznak˚u

AdaBoost (Adaptive Boosting) je metoda, která umoˇznuje vhodné spojen´ı nˇekolika slabých klasifikátor˚u do jednoho tzv. silného klasifikátoru. Vytváˇr´ı klasifikace dle souˇctu vah vy-braných slabých klasifikátor˚u. Vstupem slabých klasifikátor˚u m˚uˇze být pouze jeden pˇr´ıznak

(17)

(18)

Obrázek 2.10: Vertikáln´ı gradient obrázku. [10]

(19)

Obr´azek 2.12: Horizont´aln´ı projekce po Gaussovˇe filtru. [10]

Obr´azek 2.13: Kandid´atn´ı region. [10]

Obr´azek 2.14: Vertik´aln´ı projekce po proveden´ı dilatace a eroze. [10]

(20)

Obr´azek 2.16: Pˇr´ıklad pˇr´ıznak˚u vybran´ych AdaBoostem. [5]

Obr´azek 2.17: Pˇr´ıklad pˇr´ıznak˚u vybran´ych AdaBoostem. [5]

a odpovˇed’ mus´ı být alespoˇn o nˇeco lepˇs´ı neˇz náhodné rozhodnut´ı.

Viola a Jones vyuˇz´ıvaj´ı Haarovy pˇr´ıznaky, kde je vypoˇc´ıtán souˇcet intenzit pixel˚u v dané obdéln´ıkové ˇcásti obrázku. Je ˇzádouc´ı vybrat pˇr´ıznaky, které vytváˇrej´ı stejné výsledky na vˇsechny sn´ımky s poznávac´ı znaˇckou a jsou dostateˇcnˇe r˚uzné od obrázk˚u bez znaˇcky. Pro zpracován´ı bylo urˇceno 2400 pˇr´ıznak˚u, varianty Haarových pˇr´ıznak˚u, ale v´ıce generalizované. Nakonec bylo vybráno 100 pˇr´ıznak˚u, pˇr´ıklady nˇekterých prvn´ıch pˇr´ıznak˚u na obrázku2.16. Na obrázku2.17 je znázornˇena chyba silného klasifikátoru na trénovác´ı sadˇe.

2.2.3 Shrnut´ı

Dlagnekov rovnˇeˇz vyzkouˇsel optimalizaci Violy a Jonese s kaskádovým uspoˇrádán´ım klasi-fikátor˚u. Kaˇzdý má jiné false-positive a false-negative hodnocen´ı, coˇz urychluje prohledáván´ı segment˚u obrázku. Kv˚uli ˇcasové nároˇcnosti algoritmu vˇsak nebyla tato pˇresnˇejˇs´ı optimali-zace implementována. [16]

Na testovac´ıch datech byla dosaˇzena pˇresnost 95.6% pˇri 5.7% false-positive. False-positive (tedy regiony oznaˇcené jako znaˇcky, které znaˇcku neobsahuj´ı) byly redukovány pomoc´ı shlukován´ı region˚u do skupin a vylouˇcen´ı skupin s ménˇe ˇcleny. Dále byly pouˇzity

(21)

Obr´azek 2.18: False-negative detekce vzhledem k ´uhlu natoˇcen´ı. [11]

filtry zaloˇzené na barevném obsahu, jelikoˇz vˇetˇsina false-positive byla zp˚usobena vegetac´ı, která má velkou zelenou sloˇzku.

2.3 Metody zaloˇ

zen´

e na rozpozn´

an´ı extr´

emn´ıch region˚

u

Extrémn´ı region je ohraniˇcená skupina pixel˚u, která má niˇzˇs´ı nebo vyˇsˇs´ı jas (lokáln´ı extrém) neˇz okol´ı po celém obvodu. S metodou pouˇzit´ı deskriptory extrémn´ıch region˚u pˇriˇsli Jiˇr´ı Matas a Karel Zimmermann z ˇCVUT. V ˇclánku s názvem

”Unconstrained Licence Plate and Text Localization and Recognition“ upravili MSER detektor (viz. 3.1.5) k detekci pozn´avac´ıch znaˇcek. [11]

Nejdˇr´ıve detekuj´ı extrémn´ı regiony. Proces výˇctu region˚u je pˇribliˇznˇe lineárnˇe sloˇzitý k poˇctu pixel˚u v obrazu a pˇribliˇzná rychlost je 10 sn´ımk˚u za sekundu pˇri velikosti 700x500px. Problém je vˇsak urˇcit ze vˇsech region˚u ty relevantn´ı. Metoda je zaloˇzena na rozpoznán´ı extrémn´ıch region˚u, které mohou být p´ısmena. Ze vˇsech region˚u vyb´ırá relevantn´ı regiony klasifikátor (trénovaný AdaBoostem), který byl trénován v tomto pˇr´ıpadˇe na 1600 znac´ıch. Popsán´ı a ohodnocen´ı region˚u prob´ıhá v konstantn´ım ˇcase. Nejvˇetˇs´ı mnoˇzstv´ı tˇechto za sebou jdouc´ıch region˚u je oznaˇceno jako znaˇcka, kritériem je hlavnˇe mnoˇzstv´ı vˇetˇs´ı neˇz 3 a konstantn´ı výˇska.

Uvedená pˇresnost je 98%, ovˇsem test byl proveden pouze na 70 obrázc´ıch. False-positive byla 1 ve 20 obrázc´ıch bez znaˇcky. Rychlost celkové detekce je 1.1s pˇri velikosti obrázku 640x480px a 0.25s pˇri velikosti 320x240px. Hlavn´ı pˇrednost´ı této metody by mˇela být robust-nost v˚uˇci natoˇcen´ı znaˇcky. Tabulka zachycuj´ıc´ı m´ıru false-negative (tedy nezdetekovaných znaˇcek) v závislosti na úhlu natoˇcen´ı znaˇcky je uveden v tabulce 2.18. Dále uvádˇej´ı, ˇze metoda dokáˇze zdetekovat znaˇcky jiˇz od velikosti 7-8 pixel˚u, coˇz by v tomto smˇeru pˇredˇc´ı vˇsechny jiˇz zm´ınˇené metody. Metoda dále dokáˇze nalést i zˇcásti zakrytou znaˇcku (obr.2.19).

2.3.1 Shrnut´ı

Je velmi obt´ıˇzné porovnávat jednotlivé uvedené ˇci pˇr´ıbuzné metody, jelikoˇz nebyly mˇeˇreny na stejné testovac´ı sadˇe. Kaˇzdý ˇclánek (psaný autory) vychvaluje poctivˇe daný pˇr´ıstup, vyzdvihuje robustnost a pˇresnost metody. Z ˇclánku nav´ıc nelze metody spolehlivˇe pˇrevz´ıt, autoˇri si chrán´ı své know-how, vˇetˇsinou se jedná o nastaven´ı promˇenných, pouˇzitých para-metrech konvoluˇcn´ıch matic, atd. T´ım je ovˇsem znemoˇznˇeno porovnán´ı metod.

Pˇresto lze urˇcit pˇresnost metod okolo 95%, pokroˇcilé metody jsou jiˇz robustn´ı v˚uˇci osvˇetlen´ı, natoˇcen´ı ˇci r˚uzným st´ın˚um. Pˇredevˇs´ım u metod zaloˇzených na zpracován´ı obrazu potom rychlost záleˇz´ı na velikosti obrazu, ale obecnˇe se pohybuje okolo 1-5 sn´ımk˚u za sekundu. Samozˇrejmˇe hodnˇe záleˇz´ı na pouˇzitém hardwarovém zaˇr´ızen´ı.

(22)

(23)

Kapitola 3

Visu´

aln´ı slova pro detekci

Jak je z pˇredchoz´ı kapitoly zˇrejmé, metod k detekci poznávac´ı znaˇcky existuje velká ˇrada. Jelikoˇz nen´ı c´ılem mé práce pouze implementovat ˇci ovˇeˇrit nˇekterou z uvedených metod, pokus´ım se vyuˇz´ıt nˇekolik typ˚u lokáln´ıch detektor˚u 3.1. Ve spojen´ı s jiˇz známou metodou obecného rozpoznáván´ı objekt˚u v obraze, tzv.

”general object detection and classification“ [7], bych je rád vyzkouˇsel pro detekci znaˇcek. C´ılem tedy bude porovnat a zjistit, které lokáln´ı detektory jsou pro detekci znaˇcky v obraze vhodné a které nikoliv.

Konkrétnˇe se jedná o metodu, kdy se z trénovac´ıch dat z´ıskaj´ı vektory pˇr´ıznak˚u význaˇcných bod˚u z´ıskaných detektory a z nich se poté shlukován´ım vytvoˇr´ı vizuáln´ı slovn´ık. Takový slovn´ık obsahuje vˇetˇsinou nˇekolik tis´ıc slov a je posléze pouˇzit pro detekci znaˇcky v obraze. V této kapitole bude vysvˇetlen teoretický základ pouˇzitých lokáln´ıch detektor˚u a následné celého budouc´ıho klasifikátoru. Popsány budou detailnˇe vˇsechny d´ılˇc´ı ˇcásti aplikace vˇcetnˇe jejich významu a principu pouˇzit´ı.

Podle anotac´ı trénovac´ıch dat m˚uˇzeme u kaˇzdého slova ve slovn´ıku urˇcit pravdˇepodobnost, s jakou popisuje námi hledaný objekt. Detekce je poté zaloˇzena na nalezen´ı

”nejbliˇzˇs´ıho slova“ k z´ıskanému pˇr´ıznakovému vektoru význaˇcných bod˚u z´ıskaných detektory. T´ım zjist´ıme i pravdˇepodobnost, se kterou se daný bod vyskytuje v hledaném objektu, v naˇsem pˇr´ıpadˇe ve znaˇcce.

3.1 Lok´

aln´ı detektory

Jak bylo naznaˇceno v úvodu celé této kapitoly, pro detekci se vyuˇzij´ı význaˇcné body, které jsou detekovány lokáln´ımi detektory. Jelikoˇz vˇsechny detektory hledaj´ı jiné druhy bod˚u v obraze, vyzkouˇs´ım a porovnám v´ıce z nich. Tato kapitola tedy tvoˇr´ı nezbytný teoretický ´

uvod k jednotlivým nejznámˇejˇs´ım lokáln´ım detektor˚um.

Zamˇeˇr´ım se na pˇet typ˚u detektor˚u: detektory zaloˇzeny na normalizaci okolo Harrisových bod˚u (Harris-affine) 3.1.1, detektory zaloˇzeny na detekc´ıch hran EBR (3.1.2) a hledán´ı extrém˚u intenzity IBR (3.1.3). Dále uvedu a srovnám detektory a deskriptory SIFT a SURF (3.1.4). [6] Na závˇer uvedu jeˇstˇe pro srovnán´ı i detektor MSER, který byl pouˇzit pro detekci znaˇcky, jak je popsáno v ˇcásti 2.3. Ten ovˇsem nedetekuje význaˇcné body, ale celé regiony. Nebyl tak v pro následnou detekci vyuˇzit.

(24)

Obr´azek 3.1: Harris-affine regions. [6]

3.1.1 Harris-affine Detektory oznaˇcovan´e jako

”Harris-affine“ vyb´ıraj´ı význaˇcné body (rohové) v obraze, poté provedou analýzu Gaussova prostoru a na závˇer afin´ı normalizaci vyuˇz´ıvaj´ıc´ı iterativn´ı ”adaptive shape adaptation“ algoritmus k urˇcen´ı pˇresného tvaru elipsy. [12]

Rohový bod je charakteristický výraznou zmˇenou intenzity ve v´ıce smˇerech. Harris-Laplace detektor kombinuje tradiˇcn´ı 2D Harris˚uv detektor význaˇcných bod˚u s Gaussovským popisem prostoru za úˇcelem vytvoˇren´ı prostorovˇe invariantn´ıho detektoru.

Na tomto pˇredpokladu je postavena následuj´ıc´ı matice (oznaˇcována jako autokorelaˇcn´ı): M = µ(x, σ1, σD) = µ11 µ12 µ21 µ22 = σ2_Dg(σI) ∗ I_x2(x, σD) IxIy(x, σD) IxIy(x, σD) Iy2(x, σD) , (3.1) kde g(σD) je gaussovské jádro s vahou σD, I(x) je gaussovsky vyhlazený obraz. Ix(x, σD)

je derivace v daném smˇeru aplikována na vyhlazený obraz vypoˇc´ıtána pouˇzit´ım gaussova jádra s vahou σD.

Dále je pomoc´ı iteraˇcn´ı algoritmu (zveˇrejnˇeného Lindenbergem v roce 1998) je urˇcena cha-rakteristický význam pro vˇsechny nalezené body. Dalˇs´ım iteraˇcn´ım algoritmem najdeme afin´ı eliptický region, který popisuje daný význaˇcný bod. Pˇr´ıklad region˚u jsou na obrázku

3.1.

3.1.2 EBR

EBR je zkratka spojen´ı

”An Edge-based Region Detector“. Tato kapitola tedy popisuje de-tekci afin´ıch kovariantn´ıch region˚u vyuˇz´ıvaj´ıc´ı hrany v obraze. Hrany jsou pomˇernˇe stabiln´ı pˇr´ıznak, které lze detekovat ve velkém rozsahu natoˇcen´ı ˇci osvˇetlen´ı obrazu. Nav´ıc vyuˇzit´ım geometrie hran poˇcet dimenz´ı problému lze významnˇe sn´ıˇzit, dokonce aˇz na jednu dimenzi. [18]

V praxi se vycház´ı z význaˇcných bod˚u z´ıskaných Harrisovým detektorem a pˇr´ısluˇsných hran extrahovaných pomoc´ı Cannyho detektoru. Na pˇr´ıkladu 3.2 je na hranˇe l vyznaˇcen významný bod (roh) p a k nˇemu dva body p1 a p2, pro které plat´ı:

li =

Z

(25)

Obr´azek 3.2: Rohov´y bod. [18]

kde si je parametr kˇrivky, p(1)i (si) je prvn´ı derivace pi(si), abs() znaˇc´ı absolutn´ı hodnotu

a | . . . | determinant. Tedy c´ılem je nalést takové body, kde plocha mezi pˇr´ımým spojen´ım < p, p1 > a pˇr´ısluˇsnou kˇrivkou mezi body je rovna ploˇse mezi pˇr´ımým spojen´ım < p, p2 >

a pˇr´ısluˇsnou kˇrivkou (tedy l1 = l2).

V´yslednˇe tedy pro kaˇzdou hodnotu l, dva body p1a p2a roh p definujeme rovnobˇeˇzn´ık. Z

takto zjiˇstˇené skupiny rovnobˇeˇzn´ık˚u vybereme jeden, pro nˇehoˇz procház´ı následuj´ıc´ı formule extrémem: Inv1 = abs( |p1− pgp2− pg| |p − p1p − p2| ) M 1 00 pM2 00M000(M001 )2 (3.3) Inv1 = abs( |p−pgg − pg| |p − p₁p − p2| ) M 1 00 pM2 00M000 (M001)2 , (3.4) kde M_pqn = Z δ In(x, y)xpyqdxdy (3.5) pg= ( M₁₀1 M1 00 ,M 1 01 M1 00 ). (3.6)

M_pqn je n-tého ˇrádu a (p+g)-tého stupnˇe vypoˇc´ıtaného nad daným regionem δ(l). pg je

tˇeˇziˇstˇe regionu poˇc´ıtáno skrz intenzitu I(x, y) a q je druhý roh rovnobˇeˇzn´ıku neˇz nalezený bod p.

Problémem jsou pˇr´ımé hrany (pˇr´ımky), u kterých je obsah plochy mezi pˇr´ımým spojen´ım bod˚u a kˇrivkou u vˇsech bod˚u rovna 0. V tˇechto pˇr´ıpadech lze vˇsak jednoduˇse pouˇz´ıt metodu oznaˇcuj´ıc´ı pr˚useˇc´ıky dvou pˇr´ımek. Pˇr´ıklad detekce pomoc´ı EBR je na obrázku 3.3

3.1.3 IBR

IBR je zkratka spojen´ı

”Intensity Extrema-Based Region Detector“, oznaˇcuje tedy zp˚usob detekce region˚u zaloˇzených na hledán´ı extrém˚u intenzity v obraze. Konkrétnˇe hledaj´ı re-giony, které zaˇc´ınaj´ı v m´ıstech lokáln´ıch extrém˚u intenzity a dále prozkoumává okol´ı v paprsc´ıch. Nelezené regiony jsou oznaˇceny elipsou co moˇzná nejlepˇs´ıho tvaru. [18]

Kaˇzd´y paprsek je ohodnocen n´asleduj´ıc´ı rovnic´ı: fI(t) = abs(I(t) − I0) max( Rt 0abs(I(t)−I0)dt t , d) , (3.7)

(26)

Obr´azek 3.3: EBR [6]

Obr´azek 3.4: IBR [6]

kde t je libovoln´y parametr paprsku, I(t) je intenzita na pozici t, I0 je intenzita extr´emu a d

je malé ˇc´ıslo, které má zabránit dˇelen´ı nulou. Typicky metoda dokáˇze zdetekovat pˇredevˇs´ım regiony, ve kterých prudce klesá ˇci stoupá intenzita. Poté jsou vybrány pouze body, pro nˇeˇz zm´ınˇená funkce dosáhne maxima, vytvoˇr´ı se tak robustn´ı detektor. Na závˇer je vˇetˇsinou nepravidelný region ohraniˇcen elipsou, jak je vidˇet na obrázku3.4.

3.1.4 SIFT a SURF

Tuto podkapitolu vˇenuji detektor˚um a deskriptor˚um SIFT (Scale-invariant feature trans-form) a SURF (Speeded Up Robust Feature). Algoritmus SIFT publikoval David Lowe v roce 2004, SURF Herbert Bay a spol. v roce 2006. Obˇe metody nejsou zaloˇzeny pouze na detekci význaˇcných bod˚u v obraze, ale snaˇz´ı se vytvoˇrit i invariantn´ı deskriptor. Ty se poté nejˇcastˇeji pouˇz´ıvaj´ı pro nalezen´ı odpov´ıdaj´ıc´ıch ˇcást´ı mezi dvˇema obrázky zachycuj´ıc´ı stejnou scénu.

Nejdˇr´ıve vyberou v obraze význaˇcné body, jako jsou rohy, teˇcky ˇci T-spojen´ı. Nejcenˇejˇs´ı vlastnost detektor˚u je jeho opakovatelnost, tedy ˇze dokáˇz´ı nalést opakovanˇe stejný bod v r˚uzných zobrazen´ıch (napˇr. jiný úhel pohledu). Následnˇe je okol´ı bod˚u reprezentováno vektorem pˇr´ıznak˚u. Pˇr´ıznaky mus´ı být výrazné, relativnˇe lehce extrahovatelné, a mus´ı být

(27)

Obr´azek 3.5: MSER [6]

pomoc´ı nich moˇzné správnˇe identifikovat daný objekt s co moˇzná nejniˇzˇs´ı pravdˇepodobnost´ı zámˇeny.

SIFT k detekci bodu vyuˇz´ıvá Gaussovu funkci (Difference of Gaussian - DoG). Po nalezen´ı um´ıstˇen´ı bod˚u, je u kaˇzdého popsána jeho orientace, coˇz zajiˇstuje rotaˇcn´ı invarianci. Body jsou popsány skrz své okol´ı, deskriptor vytvoˇr´ı 128 prvkový normalizovaný pˇr´ıznakový vektor.

SURF poté nacház´ı význaˇcné body pomoc´ı

”rychlé Hessianovy matice“ (Fast-Hessian matrix), která je vycház´ı z Harrisovy matice3.1.1. A vektor, kterým se popisuj´ı body, ob-sahuje 64 floatových hodnot, které rovnˇeˇz mohou být rozˇs´ıˇreny na 128.

Poˇcet nalezených význaˇcných bod˚u je obecnˇe vˇetˇs´ı pro SIFT, ovˇsem kvalitou se témˇeˇr shoduj´ı. [8] Test potvrdil 95% odolnost v˚uˇci natoˇcen´ı. Rovnˇeˇz srovnán´ı metod v ostatn´ıch kritéri´ıch je znázornˇeno na následuj´ıc´ıch grafech. V souhrnu byl oznaˇcen SIFT jako o nˇeco málo pˇresnˇejˇs´ı neˇz SURF, který je ovˇsem výraznˇe rychlejˇs´ı.

3.1.5 MSER MSER je zkratka

”Maximally Stable Extremal Region Detector“, oznaˇcuje tedy detek-tory hledaj´ıc´ı maximálnˇe stabiln´ı extrémn´ı regiony. Extrémn´ı v tomto pˇr´ıpadˇe znamená, ˇze vˇsechny pixely v regionu maj´ı bud vyˇsˇs´ı (svˇetlé) nebo niˇzˇs´ı (tmavé) intenzitu neˇz vˇsechny ohraniˇcuj´ıc´ı pixely. Maximálnˇe stabiln´ı poté popisuje optimalizaci pˇri procesu výbˇeru. [9]

Výbˇer sady extrémn´ıch region˚u je sloˇzitost´ı témˇeˇr lineárn´ı s poˇctem pixel˚u v obraze. Nejdˇr´ıve jsou pixely seˇrazeny podle intenzity, dále jsou oznaˇceny v obraze (bud’ v klesaj´ıc´ım nebo vzestupném poˇrad´ı). Slouˇcen´ı jednotlivých ploch se provád´ı pomoc´ı

”union-find“ algo-ritmu. Bˇehem hledán´ı region˚u se ukládá plocha vˇsech spojených ˇcást´ı jako funkce intenzity. MSER jsou ˇcásti obrazu, kde lokáln´ı dvojice jsou stejnˇe ohodnoceny pˇres velký rozsah prah˚u. Jinými slovy je mezi jednotlivými pixely malý rozd´ıl intenzity, t´ım jsou

”maxim´alnˇe stabiln´ı“.

Detekce MSER souvis´ı tedy s prahován´ım, nicménˇe se nehledá ˇzádný globáln´ı ˇci op-timáln´ı práh. Vˇsechny prahy jsou vyhodnoceny jednotlivˇe pro kaˇzdý spojený útvar. Výsledkem MSER detektoru tedy nen´ı binárn´ı obraz (kde pixely jsou bud’ nad prahem nebo pod n´ım). Pˇr´ıklad MSER region˚u jsou na obrázku3.5.

(28)

3.2 Vizu´

aln´ı slovn´ık

V následuj´ıc´ı podkapitolách pop´ıˇsi teoretické základy jednotlivých ˇcást´ı tvorby slovn´ık˚u z vektor˚u pˇr´ıznak˚u z´ıskaných lokáln´ımi detektory a deskriptory.

Jak jiˇz bylo naznaˇceno, vizuáln´ı slovn´ıky se vytvoˇr´ı ze vˇsech trénovac´ıch a oanotovaných dat a následnˇe budou slouˇzit k detekován´ı znaˇcky v obraze.

Nejprve je moˇzné redukovat dimenzi dat pˇr´ıznakových vektor˚u pomoc´ı PCA. Poté se pomoc´ı shlukovac´ı metody vytvoˇr´ı slovn´ıky.

3.2.1 Anal´yza hlavn´ıch komponent (PCA)

Deskriptory SIFT a SURF popisuj´ı body z´ıskané pomoc´ı lokáln´ıch detektor˚u 128 prvkovými vektory pˇr´ıznak˚u. To je pro naˇse pouˇzit´ı pˇr´ıliˇs, výpoˇcet tˇr´ıd (shluk˚u) by byl extrémnˇe ˇcasovˇe a pamˇet’ovˇe nároˇcný. Proto se pouˇzije metoda PCA, která analyzuje data a redukuje dimenzi vektoru pˇr´ıznak˚u s minimáln´ı ztrátou informace v datech. Je zaloˇzena na transformaci souˇradného systému - nalezen´ı speciáln´ı ortonormáln´ı báze prostoru, ve kterém jsou data um´ıstˇena. [21]

Vektory hledané ortonormáln´ı báze jsou uspoˇrádány tak, ˇze prvn´ı urˇcuje smˇer obsa-huj´ıc´ı nejvˇetˇs´ı moˇznou jednorozmˇernou informaci v datech a ve smˇeru posledn´ıho bázového vektoru je obsah informace v datech minimáln´ı. [17]

PCA obsahuje n´asleduj´ıc´ı kroky:

1. uspoˇrádá data do matice rxs, kde ˇrádky obsahuj´ı jednotlivá pozorován´ı (v naˇsem pˇr´ıpadˇe vektor pˇr´ıznak˚u jednotlivých bod˚u) a sloupce odpov´ıdaj´ı mˇeˇreným veliˇcinám. 2. Vypoˇc´ıtá pro kaˇzdou dimenzi (mˇeˇrenou veliˇcinu) pr˚umˇer hodnot, z´ıskáme tedy pr˚umˇerný

vektor dat (pr˚umˇerný ˇrádek X). Od kaˇzdé poloˇzky matice poté odeˇcte pr˚umˇer v dané dimenzi (výsledkem je matice X), výsledné poloˇzky tedy znamenaj´ı odchylku od pr˚umˇeru. Pr˚umˇer jednotlivých sloupc˚u je tedy 0.

3. v´ypoˇc´ıt´a kovarianˇcn´ı matici C = _(r−1)1 XT.X, kde X* znaˇc´ı zm´ınˇenou matici odchylek od pr˚umˇer˚u.

4. Spoˇc´ıt´a eigenvalues (

”vlastn´ı ˇc´ısla“) a eigenvectors (”vlastn´ı vektory“) kovarianˇcn´ı matice C. Tyto vlastn´ı vektory jsou jednotkové, jejich délka je 1. T´ım z´ıskáme infor-mace o rozloˇzen´ı pˇr´ıznak˚u v datech.

5. Pokud seˇrad´ıme vlastn´ı ˇc´ısla uspoˇrádaná v absolutn´ı hodnotˇe podle velikosti od nejvˇetˇs´ıho k nejmenˇs´ımu, zjist´ıme, které vektory nesou nejmenˇs´ı informaci (ty s nejmenˇs´ı hodnoutou eigenvalue). Poté se vybere poˇcet n komponent (n udává poˇcet dimenz´ı dat) a sestav´ı transformaˇcn´ı matici Tntypu rxn obsahuj´ıc´ı prvn´ıch n vlastn´ıch vektor˚u

kovarianˇcn´ı matice C ve sloupc´ıch.

6. Redukuje p˚uvodn´ı data (ortogonálnˇe je prom´ıtne do podprostoru generovaného hlavn´ımi komponentami) Zn= XTn. Z´ıskáme redukovaná p˚uvodn´ı data z hlediska vypoˇc´ıtaných

vlastn´ıch vektor˚u.

7. Rekonstruuje redukovan´a vycentrovan´a data Y = ZT_nt 8. Rekonstruuje p˚uvodn´ı data Y = Y ∗ +1.xT

(29)

Matice Y tedy obsahuje p˚uvodn´ı data kolmo prom´ıtnutá do afinn´ıho podprostoru di-menze n, který má nejmenˇs´ı chybu zp˚usobenou prom´ıtnut´ım. Pro potˇreby detekce by mˇela postaˇcovat velikost dimenze mezi 10 aˇz 40. Pˇresný poˇcet bude urˇcen aˇz pˇri testován´ı. 3.2.2 Shlukován´ı

Kapitola bude vˇenována obecnému popisu shlukován´ı, poté konkrétnˇe metody k − means, pomoc´ı které budeme moci vytvoˇrit jednotlivé slovn´ıky.

Shlukován´ı obecnˇe hledá urˇcitou strukturu v neohodnocených datech. Obecnˇe se jedná o proces rozdˇelen´ı objekt˚u do tˇr´ıd (shluk˚u) na základˇe podobnosti. Tˇr´ıdou tedy oznaˇcujeme skupinu prostorovˇe bl´ızkých objekt˚u. Uvnitˇr skupin by tak mˇely být objekty co nejpo-dobnˇejˇs´ı a naopak mezi skupinami objekty co nejménˇe podobné. Podobnost se v tomto pˇr´ıpadˇe pˇrevád´ı na vzdálenost. Typicky by se hustota objekt˚u s rostouc´ı vzdálenost´ı od stˇredu námi definované tˇr´ıdy mˇela zmenˇsovat. Vizuáln´ı slovn´ık je tvoˇren právˇe takovými tˇr´ıdami, kaˇzdé slovo pˇredstavuje jednu tˇr´ıdu.

K-means

Metoda k-means (ˇcesky k-pr˚umˇer˚u) je jedna ze shlukovac´ıch algoritm˚u a je zaloˇzena na vzdálenosti bod˚u (ˇcasto v mnoharozmˇerném) prostoru. Kaˇzdý objekt je reprezentován jedn´ım bodem a kaˇzdá popsaná veliˇcina jednou souˇradnic´ı.

K-means je vhodný zejména pro velké mnoˇzstv´ı dat, které maj´ı být roztˇr´ıdˇeny do pomˇernˇe malého poˇctu tˇr´ıd. Algoritmus iterativnˇe hledá hodnoty vektor˚u (tˇr´ıdy) tak, ˇze mi-nimalizuje stˇredn´ı odchylku mezi zadanou mnoˇzinou dat a vektory (vzdálenost objekt˚u od stˇredu tˇr´ıdy), které maj´ı k tˇemto dat˚um nejmenˇs´ı euklidovskou vzdálenost. Pˇredem ovˇsem mus´ı být znám poˇcet hledaných tˇr´ıd.

Jednotlivé tˇr´ıdy mus´ı splˇnovat následuj´ıc´ı podm´ınky: • kaˇzdá tˇr´ıda mus´ı obsahovat alespoˇn jeden objekt • kaˇzdý objekt mus´ı patˇrit pouze do jedné tˇr´ıdy

Základn´ı algoritmus pouˇz´ıvá euklidovskou vzdálenost a µj pˇredstavuje vektor udávaj´ıc´ı

stˇred tˇr´ıdy. Vstupem algoritmu pot´e je mnoˇzina dat x1, x2, . . . xn a k ud´avaj´ıc´ı poˇcet

vek-tor˚u µi, kde i = 1, . . . , k. Nejprve se inicializuj´ı vektory uj, kde j = 1, . . . , k, na n´ahodnˇe

zvolenou hodnotu ˇci pouˇzit´ım nˇejaké vhodné heuristiky (pokud máme napˇr. urˇcitou zna-lost o datech). Následnˇe se opakuj´ı iterativnˇe kroky, kdy je kaˇzdý bod pˇriˇrazen nejbliˇzˇs´ımu vektoru uj (stˇredu tˇr´ıdy) a ten je následnˇe aktualizován jako pr˚umˇerný vektor vˇsech jemu pˇriˇrazených bod˚u. Iterace pokraˇcuje, dokud se mˇen´ı pˇr´ısluˇsnost nˇekterých bod˚u ke tˇr´ıdám. Je dokázáno, ˇze algoritmus je koneˇcný [13]

Matematicky lze postup vyj´adˇrit kroky:

1. Vˇsechna data xi, kde i = 1, . . . , l, se klasifikuj´ı do tˇr´ıd urˇcen´ych vektory µj, kde j =

1, . . . , k, podle minima euklidovsk´e vzd´alenosti. Tedy bod xi je pˇriˇrazen do nejbliˇzˇs´ı

tˇr´ıdy podle nejmenˇs´ı vzd´alenosti ke stˇredu tˇr´ıdy.

2. Vypoˇc´ıtaj´ı se nov´e hodnoty vektor˚u µj jako stˇredn´ı hodnoty dat xi, kter´e byly

kla-sifikovány do tˇr´ıdy urˇcené pˇr´ısluˇsným vektorem µj. Tedy nová hodnota µj se spoˇcte

podle vztahu µj = _l1

j

l

(30)

K-means nezaruˇcuje nejlepˇs´ı rozdˇelen´ı dat, nalezne pouze lokáln´ı optimum. Nevede ani pokaˇzdé ke stejným výsledk˚um, záleˇz´ı na poˇcáteˇcn´ı inicializaci. Je ovˇsem velmi jednoduchý pro metrická data a vhodný pro rozdˇelován´ı velkého poˇctu dat zejména pro své pomˇernˇe rozumné výpoˇcetn´ı nároky.

Ohodnocen´ı slov

Jednotlivá slova ve slovn´ıku vzniklém shlukován´ım pˇr´ıznakových vektor˚u bod˚u z trénovac´ı sady je dále nutné

”ohodnotit“. Jelikoˇz v´ıme, kterému slovu ve slovn´ıku náleˇz´ı které pˇr´ıznakové vektory, a trénovac´ı sada je anotovaná (jsou v n´ı oznaˇceny hledané znaˇcky), m˚uˇzeme jed-noduˇse u vˇsech slov urˇcit pravdˇepodobnost, se kterou slovo popisuje znaˇcku v obraze.

Tato pravdˇepodobnost vyjadˇruje pomˇer vˇsech bod˚u, jejichˇz pˇr´ıznakové vektory patˇr´ı k danému slovu a byly anotovány uvnitˇr znaˇcky v obraze, v˚uˇci vˇsem bod˚um ve slovˇe.

Pokud by byla trénovac´ı sada velmi rozsáhlá a anotována by byla pouze jej´ı ˇcást, je mimo

”pozitivn´ı“ pravdˇepodobnosti (ˇze dané slovo popisuje znaˇcku), vypoˇc´ıtána i ” nega-tivn´ı“ pravdˇepodobnost, tedy ˇze dané slovo nepopisuje znaˇcku. Pˇri detekován´ı znaˇcky jsou poté tyto pravdˇepodobnosti od sebe odeˇcteny.

T´ımto z´ıskáme ze vˇsech trénovac´ıch dat vizuáln´ı slovn´ıky (jedno slovo bude pˇredstavovat jeden nalezený shluk dat). Jelikoˇz vˇsechny detektory se liˇs´ı hledanými body ˇci regiony, bude nutné pro kaˇzdou dvojici detektor – deskriptor vytvoˇrit samostatný slovn´ık.

3.3 Vyhled´

av´

an´ı

Následuj´ıc´ı kapitola jiˇz popisuje druhou ˇcást metody, kdy bude pouˇzit vytvoˇrený vizuáln´ı slovn´ık k samotné detekce znaˇcky. Ve vstupn´ım obrázku nalezne znaˇcku a oznaˇc´ı ji v obrázku na výstupu.

Obrázek je popsán vybraným lokáln´ım detektorem a k jednotlivým detekovaným bod˚um bude pˇriˇrazena tˇr´ıda (slovo) ve slovn´ıku podle vzdálenosti v euklidovském prostoru. Jed-noduˇse jde o to, nalést nejbliˇzˇs´ı stˇred tˇr´ıdy k pˇr´ıznakovému vektoru bodu. Prohledáván´ı prostoru m´ıvá obecnˇe vysokou výpoˇcetn´ı sloˇzitost - nelineárnˇe nar˚ustaj´ı ˇcasové a pamˇet’ové poˇzadavky v závislosti na poˇctu bod˚u v prostoru. Efektivnˇejˇs´ı vyhledáván´ı lze dosáhnout vy-mezen´ım podprostoru. Pro urychlen´ı zde budou tˇr´ıdy uspoˇrádány do tzv. k-dimenzionáln´ıho stromu popsaného v podkapitole3.3.1.

Slovn´ıky obsahuj´ı mimo slov dále pravdˇepodobnosti, ˇze dané slovo popisuje bod uvnitˇr znaˇcky a mimo ni. Ke kaˇzdému nalezenému bodu je tedy pˇriˇrazen rozd´ıl onˇech pravdˇepodobnost´ı daného

”nejbliˇzˇs´ıho“ slova. Vznikne tak mapa pravdˇepodobnost´ı (vah).

Z takto vzniklé mapy, která je stejnˇe velká jako p˚uvodn´ı obrázek, je nutné nalést lokáln´ı maxima, která budou detekovat s urˇcitou pravdˇepodobnost´ı znaˇcku. Nejdˇr´ıve je vˇsak nutné mapu lehce rozmazat, aby maxima vynikla a podtlaˇcil se ˇsum. Lze to provést obyˇcejným pr˚umˇerován´ım bodu a jeho okol´ı, jak je popsáno v ˇcásti3.3.2.

Následnˇe se jiˇz naleznou jednotlivá lokáln´ı maxima. Ty jsou vypoˇc´ıtána pro matici o urˇcité liché velikosti. Pokud vˇsechny body v n´ı jsou menˇs´ı neˇz hodnota uprostˇred matice, je prostˇredn´ı bod oznaˇcen za lokáln´ı maximum. Takto se zkontroluj´ı vˇsechny body v obraze.

ˇ

C´ım vˇetˇs´ı jsou maxima, t´ım je vˇetˇs´ı je pravdˇepodobnost, ˇze skuteˇcn´e popisuj´ı hledanou znaˇcku.

(31)

Obr´azek 3.6: Ilustrace kd-stromu pro 2D

3.3.1 kd-strom

K-dimenzionáln´ı strom (oznaˇcovaný jako kd-tree) je datová struktura, která pomoc´ı nadro-vin (rovnobˇeˇzných s pˇr´ısluˇsnými osami) vymezuje ˇcást k-dimenzionáln´ıho prostoru (3.6). Ta poté bud’ pˇr´ımo obsahuje hledané ˇreˇsen´ı, nebo umoˇzˇnuje jiˇz pˇrijatelné libovolné dohledán´ı. Konkrétnˇe v pˇr´ıpadˇe kd-stromu je prostor rozdˇelován zpracován´ım jednotlivých os tak, ˇ

ze se za bod dˇelen´ı vol´ı medián souˇradnic bod˚u v pˇr´ısluˇsném intervalu vzniklém rozdˇelen´ım pˇredchoz´ıho intervalu. Vznikne tak vyváˇzený strom, kde jednotlivé podprostory mohou obsahovat pouze jeden bod. Horn´ı výpoˇcetn´ı sloˇzitost vytvoˇren´ı kd-stromu je O(n ∗ log2n)

pro n zadan´ych bod˚u. 3.3.2 Pr˚umˇerov´an´ı

Pr˚umˇerován´ı je nejjednoduˇsˇs´ı metoda rozostˇren´ı obrazu. Pro jednotlivé body v obraze se vypoˇc´ıtá pr˚umˇerná hodnota okol´ı a ta je uloˇzena do daného bodu. Velikost okol´ı, pouˇzité matici, m˚uˇze být libovolný. Vˇetˇsinou se pouˇz´ıvá soumˇerná matice o liché velikosti stran. Napˇr´ıklad pro matici 3x3 se hodnota bodu uprostˇre poˇc´ıtá jako:

(32)

Kapitola 4

Tvorba a vyuˇ

zit´ı slovn´ıku

Kapitola se vˇenuje popisu implementace metody, jej´ıˇz jednotlivé ˇcásti byly v pˇredeˇslých kapitolách teoreticky nast´ınˇeny. Bude popsána celá aplikace, vˇcetnˇe pouˇzitých nástroj˚u a problém˚u návrhu, které bylo nutné bˇehem implementace vyˇreˇsit.

Hlavn´ı otázkou bylo, jakým zp˚usobem ukládat detekovaná data a jiˇz vypoˇc´ıtané slovn´ıky. Pouˇzité detektory vytvoˇr´ı na výstupu textové soubory, pˇri kaˇzdém výpoˇctu nového slovn´ıku tud´ıˇz nen´ı ideáln´ı z nich vˇse znovu naˇc´ıtat, nemluvˇe o tom, ˇze bˇeˇzn´ı uˇzivatelé by museli m´ıt celou trénovac´ı sadu k dispozici. Stejný problém nastává i pokud chceme na jednom obrázku vyzkouˇset v´ıce slovn´ık˚u.

Rozhodl jsem se proto vyuˇz´ıt a vyzkouˇset Video Processing Library (VPL). [4] Jedná se o soubor funkc´ı pro zpracován´ı obrazu, ukládán´ı jej´ıch výsledk˚u ˇci extrakci pˇr´ıznak˚u. Tato knihovna vyuˇz´ıvá databázi PostgreSQL a OpenCV verze 1.1. [3] D´ıky tomu bude moˇzné uloˇzit i výsledné slovn´ıky a jejich pouˇzit´ı se tak stane nezávislé na p˚uvodn´ıch textových souborech.

Aplikace je napsána ve Visual Studiu 9.0 v programovac´ım jazyku C++. Jakým zp˚usobem jsou obˇe pˇredchoz´ı knihovny do projektu zaˇclenˇeny vˇcetnˇe nezbytného popisu jednotlivých ˇ

cást´ı programu je popsáno v README, který je uloˇzen spoleˇcnˇe se zdrojovými kódy aplikace. Aplikace se skládá ze dvou na sobˇe nezávislých ˇcást´ı. Prvn´ı ˇcást, nazvaná vocabulary, vkládá anotovanou sadu obrázk˚u (4.1.1) do databáze a vytváˇr´ı z nich slovn´ıky 4.1. Ty jsou cha-rakteristické detektorem, kterým byly body nalezeny, poˇctem slov a velikost´ı pˇr´ıznakovýh vektor˚u, kterými jsou slova popsána. Je tedy moˇzné vytvoˇrit velkou ˇskálu slovn´ık˚u.

Druhá ˇcást, nazvaná iblpr (Image-Based License Plate Recognition), poté bude pouˇz´ıvat zvoleného slovn´ıku k nalezen´ı poznávac´ı znaˇcky, jak bylo popsáno v kapitole3.3.

4.1 Tvorba slovn´ıku

Kapitola je vˇenována celé prvn´ı ˇcásti, tzn. vytvoˇren´ı a anotován´ı trénovac´ı sady, pouˇzit´ı detektor˚u, import pˇr´ıznak˚u do databáze a následné vytvoˇren´ı slovn´ıku za pˇr´ıpadného vyuˇzit´ı PCA.

4.1.1 Tr´enovac´ı sada, anotace

Trénovac´ı sadu tvoˇr´ı 140 obrázk˚u, kterou jsem z´ıskal stahován´ım z internetu z r˚uzných server˚u se snahou o co nejvˇetˇs´ı pestrost a vyváˇzenost. Jedná se o obrázky r˚uzné velikosti s auty s ˇceskou registraˇcn´ı znaˇckou. Na kaˇzdém obrázku je alespoˇn jedna.

(33)

Abychom mohli rozhodnout u tˇr´ıd objekt˚u o jejich relevanci pˇri detekci, mus´ıme zjis-tit, které body z testovac´ıch dat jsou uvnitˇr znaˇcky a které vnˇe. K tomu slouˇz´ı anotace trénovac´ıch dat. Ta je provedena pomoc´ı programu Image Annotator stáhnutelného z http : //www.mvacek.cz/annotator. Jednoduchý nástroj pro anotaci obrázk˚u na výstupu vytvoˇr´ı XML soubory popisuj´ıc´ı jednotlivé obrázky. K anotaci znaˇcek jsem vytvoˇril ˇsablonu, se kterou je anotace zjednoduˇsena pouze na oznaˇcen´ıˇctyˇrúheln´ıku v obrázku, kde je um´ıstˇena znaˇcka, a je rovnˇeˇz pˇriloˇzena ke zdrojovým kód˚um aplikace.

Jednotlivé anotace poté budou naˇcteny z xml soubor˚u a u kaˇzdé tˇr´ıdy se urˇc´ı pravdˇepodobnost s jakou popisuje znaˇcku (pod´ıl poˇctu bod˚u, které byly anotac´ı oznaˇceny uvnitˇr znaˇcku, ku vˇsem bod˚um). Pomoc´ı této pravdˇepodobnosti poté bude moˇzné nalést znaˇcku i v neanoto-vaných datech podle pˇr´ısluˇsnosti bod˚u k jednotlivým tˇr´ıdám.

4.1.2 Detekce bod˚u

Detektory Harris-Hessian (zkrácenˇe Harhes), IBR a EBR byly staˇzeny z [1]. Vˇsech 140 obrázk˚u z trénovac´ı sady (uloˇzeny v /data/vocabulary/images) muselo nejdˇr´ıve býti de-tekováno vˇsemi detektory, výsledné body popsány deskriptorem SIFT staˇzeným z [2]. De-tektory pracuj´ı s obrázky ve formátu P GM . Zde nastává menˇs´ı problém, jelikoˇz databáze um´ı pracovat pouze s obrázky ve formátu J P G, které rovnˇeˇz program vyˇzaduje. Je tak nutné provést konverzi. V následuj´ıc´ım seznamu jsou uvedeny parametry, se kterými byli jednotlivé detektory spuˇstˇeny:

• harhes : ./extract f eatures − harhes − i img.pgm − sif t − pca harhessif t.basis • ebr : ./ibr.ln img1.pgm img1.ibr

• ibr : ./ibr.ln img1.pgm img1.ibr

VPL obsahuje funkce na detekci SIFT a OpenCV na detekci SURF, tud´ıˇz dané detekce provád´ı program sám a nenaˇc´ıtá je z textových soubor˚u.

4.1.3 Nastaven´ı parametr˚u

Pˇri spuˇstˇen´ı programu jsou nejdˇr´ıve zpracovány vˇsechny parametry. Ukládaj´ı se do struk-tury, aby byly pˇr´ıstupné po celou dobu bˇehu programu. Jedná se pˇredevˇs´ım o nastaven´ı cest k obrázk˚um, jejich detekc´ım ˇci anotac´ım. Naˇc´ıtán´ı z adresáˇr˚u se jev´ı jako nejlepˇs´ı moˇzná metoda, nam´ısto naˇc´ıtán´ı jednotlivých obrázk˚u. Dále se parametry nastavuj´ı vlast-nosti výsledného slovn´ıku, poˇcet slov ˇci velikost dimenze pˇr´ıznakového vektoru. Vˇsechny moˇznosti nastaven´ı jsou uvedeny v tabulce 4.1. Parametr −h nav´ıc vyp´ıˇse nápovˇedu na standartn´ı výstup.

Pˇri pouˇzit´ı detektoru SIFT ˇci SURF nen´ı samozˇrejmˇe parametr udávaj´ıc´ı cestu k deteko-vaným bod˚um pouˇzit. Po naˇcten´ı vˇsech parametr˚u je jejich validita zkontrolována, napˇr´ıklad nelze pouˇz´ıt metodu redukce dimenze PCA pro vˇetˇs´ı ˇc´ıslo neˇz 127, jelikoˇz p˚uvodn´ı velikost vektor˚u je 128.

Pˇr´ıklad spuˇstˇen´ı aplikace m˚uˇze tedy vypadat n´asledovnˇe:

vocabulary.exe − harhes − seq 0 − words 10000 − pca 40 (4.1) Coˇz znamená, ˇze se pouˇzij´ı Harhes detekce význaˇcných bod˚u, pouˇzije se trénovac´ı sada

(34)

Parametr Popis Inicializace –harhes [–ebr, –ibr, –sift, –surf] pouˇzitý detektor (povinný údaj) –root path rootovský adresáˇre ../data/

–imgs path adres´aˇr s obr´azky vocabulary/images/

–pts path adres´aˇr s body vocabulary/detects/harhes/

–anot path adres´aˇr s anotacemi vocabulary/annotation/ –seq cislo sequence ˇc´ıslo sekvence s obr´azky ˇc´ıslo sekvence

–pca velikost dimenze PCA neinicializov´ana

–words pocet slov poˇcet slov ve slovn´ıku 1000 Tabulka 4.1: Popis vstupn´ıch parametr˚u

o velikosti 10000 slov a metoda PCA redukuje pˇr´ıznakové vektory na velikost 40. Poˇrad´ı parametr˚u nemá vliv a m˚uˇze být libovolné.

4.1.4 Naˇcten´ı obr´azk˚u a detekovan´ych bod˚u

Následuj´ıc´ı kapitola je vˇenován importu dat do databáze. Pokud v parametrech chyb´ı ˇc´ıslo zvolené sekvence, program pˇredpokládá, ˇze se uˇzivatel snaˇz´ı vytvoˇrit novou trénovac´ı sadu. Je tedy nutné vˇsechny obrázky (resp. cesty k tˇemto obrázk˚um), detekované body a jejich popis vloˇzit do databáze, aby bylo pozdˇeji moˇzné vytvoˇrit poˇzadované slovn´ıky.

Vytvoˇr´ı se tedy nová sekvence v databázi a nahraj´ı se cesty ke vˇsem obrázk˚um, které jsou v adresáˇri zadaném parametrem −imgs. Trénovac´ı sada, která byla popsána výˇse, je uloˇzena v sekvenci 0 (tedy se pˇredpokládá pouˇzit´ı parametru −seq 0).

Podle zvoleného detektoru dojde poté k nahrán´ı bod˚u a pˇr´ıznakových vektor˚u do databáze (v pˇr´ıpadˇe Harhes, EBR a IBR) ˇci jsou vˇsechny obrázky zdetekovány detektory SIFT ˇci SURF. U jednotlivých bod˚u je jeˇstˇe zkontrolováno, zda se nacházej´ı podle anotace uvnitˇr znaˇcky ˇci vnˇe.

Je nezbytné, aby se soubor s anotacemi jmenoval stejnˇe jako k nˇemu pˇr´ısluˇsej´ıc´ı obrázek (bez pˇr´ıpony) s pˇr´ıponou .xml. Je pˇredpokládána i daná struktura dokumentu, kterou vytváˇr´ı pouˇzitý anotaˇcn´ı nástroj ImageAnnotator. Ten mimo jiné, pro tento úˇcel nepod-statné informace, ukládá anotované znaˇcky jako elementy < object > a v nˇem elementy < point >, které definuj´ı jednotlivé vrcholy znaˇcky. V kaˇzdém objektu by tedy mˇely být právˇe ˇctyˇri elementy point, jelikoˇz je znaˇcka anotována ˇctyˇrúheln´ıkem a v nich po jednom elementu < x > a < y >, které definuj´ı um´ıstˇen´ı bodu v obraze.

I soubor s detekovanými body se mus´ı jmenovat stejnˇe jako obrázek, ovˇsem s pˇr´ıponami, které vytváˇrej´ı jednotlivé detektory: .pgm.harhes.sif t pro Harris-Hessian, .ebr pro EBR a .ibr pro IBR. V pr˚ubˇehu naˇc´ıtán´ı je u vˇsech detekovaných bod˚u kontrolováno, zda leˇz´ı uvnitˇr anotované znaˇcky (ˇctyˇrúheln´ıku definovaného ˇctyˇrmi vrcholy). A to tak, ˇze je ˇ

ctyˇrúheln´ık rozdˇelen na dva trojúheln´ıky. Daný bod poté leˇz´ı uvnitˇr trojúheln´ıku (tedy i celého ˇctyˇrúheln´ıku), pokud souˇcet vnitˇrn´ı úhl˚u vˇzdy mezi n´ım a dvˇema vrcholy v trojúheln´ıku je roven 2π, resp. je vˇetˇs´ı neˇz nastavený práh 3.26.

Takto detekované body jsou poté uloˇzeny do databáze vˇcetnˇe pˇr´ıznaku, zda byly ano-továny uvnitˇr znaˇcky ˇci nikoliv.

(35)

program, obrázky tedy nen´ı nutno pˇredem zvláˇst detekovat, a nalezené body jsou pouze porovnány s anotacemi podobnˇe, jako to bylo výˇse popsáno. Následnˇe se rovnˇeˇz vˇse uloˇz´ı do databáze.

Pokud je ˇc´ıslo sekvence zadané, program pracuje s touto sekvenc´ı, pˇreskoˇc´ı naˇc´ıtán´ı dat a pouˇz´ıvá jiˇz uloˇzená data v databázi. Pokud je zadané ˇc´ıslo sekvence vˇetˇs´ı neˇz poˇcet sekvenc´ı v daném datasetu, program pracuje s posledn´ı z nich.

4.1.5 Vytvoˇren´ı slovn´ıku

Pokud jiˇz máme vˇsechny potˇrebné body v databázi, lze z nich vytvoˇrit nový slovn´ık. Podle parametru zjist´ıme, pro jaký detektor a pro jakou sekvenci má být slovn´ık vytvoˇren. V budoucnu se poˇc´ıtá s vytvoˇren´ım shlukovac´ıch funkc´ı ve VPL knihovnˇe, která bude pracovat pˇr´ımo nad databáz´ı. To by pˇr´ıpadný výpoˇcet významnˇe zrychlilo, pˇredevˇs´ım ve fázi naˇc´ıtán´ı. Zat´ım bylo nutné vyuˇz´ıt funkce OpenCV.

Pouˇzit´ı knihovny OpenCV k vytvoˇren´ı slovn´ıku

Vˇsechny body v obrázc´ıch dané sekvence a pˇredevˇs´ım jejich pˇr´ıznakové vektory se naˇctou do matice. Dále vznikne jeˇstˇe

”anotaˇcn´ı matice“ se stejným poˇctem ˇrádk˚u a ˇs´ıˇrkou 1, na jejichˇz jednotlivých ˇrádc´ıch je hodnota 1, pokud bod na stejném ˇrádku byl urˇcen uvnitˇr znaˇcky a 0 pokud mimo.

Pokud je poˇzadováno sn´ıˇzen´ı velikosti dimenze pˇr´ıznakových vektor˚u (PCA), provede tato metoda redukci ˇs´ıˇrky matice na zadanou velikost, jak bylo popsáno v kapitole 3.2.1

Zvolená velikost mus´ı být samozˇrejmˇe niˇzˇs´ı neˇz 128, coˇz je velikost p˚uvodn´ıch pˇr´ıznakových vektor˚u.

Nyn´ı je jiˇz matice pˇripravena pro vytvoˇren´ı slovn´ıku. To se provád´ı shlukován´ım matice pˇr´ıznak˚u do daného poˇctu shluk˚u (slov ve slovn´ıku). Kromˇe popisu slov je vytvoˇrena také matice index˚u p˚uvodn´ıch bod˚u na slova. Ta je právˇe potˇreba pro natrénován´ı klasifikátoru, tedy urˇcen´ı pravdˇepodobnost´ı jednotlivých slov.

Jak bylo uvedeno v kapitole 3.2.2, jednotlivá slova obsahuj´ı body s velmi podobnými vlastnostmi (pˇr´ıznakovými vektory). Jelikoˇz známe, které body patˇr´ı do kterých slov, a dále u kaˇzdého bodu v´ıme, zda byl anotován uvnitˇr znaˇcky ˇci vnˇe, lze pro kaˇzdé slovo vypoˇc´ıtat pravdˇepodobnost, se kterou se vyskytuje ve znaˇcce. Ta je spoˇc´ıtána jako pomˇer bod˚u v daném slovu anotovaných ve znaˇcce ku vˇsem ve slovˇe. Jelikoˇz v naˇsem pˇr´ıpadˇe byla anotována celá trénovac´ı sada, nen´ı nutné vypoˇc´ıtavat i pravdˇepodobnost, ˇze se slovo nevyskytuje ve znaˇcce, protoˇze ta se poté rovná rozd´ılu prvn´ı pravdˇepodobnosti od hodnoty 1.

Takto dojde v podstatˇe k natrénován´ı klasifikátoru. Pravdˇepodobnost libovolného bodu, ˇ

ze se nalézá ve znaˇcce, je jednoduˇse rovna pravdˇepodobnosti nejbliˇzˇs´ıho slova v takto vy-tvoˇreném slovn´ıku.

V tuto chv´ıli jiˇz je slovn´ık hotov a je uloˇzen. Ani zde jeˇstˇe nen´ı databáze zcela do-konˇcena, tud´ıˇz mus´ı být slovn´ıky prozat´ım ukládány lokálnˇe.

Bˇehem vytváˇren´ı slovn´ıku vypisuje program d˚uleˇzité informace vˇcetnˇe ˇcasové nároˇcnosti jednotlivých úkon˚u. Tyto hodnoty jsou shnuty a zhodnoceny v kapitole 5.

(36)

4.2 Vyuˇ

zit´ı slovn´ıku

V této kapitole je popsána druhá ˇcást aplikace, a to vyuˇzit´ı jiˇz vytvoˇreného slovn´ıku vizuáln´ıch slov pro detekci poznávac´ı znaˇcky. Funkce jsou um´ıstˇeny ve zdrojovém souboru iblpr.cpp. Na vstupu program oˇcekává seznam obrázk˚u, u kterých se má znaˇcka deteko-vat. Ty jsou postupnˇe zpracovány, je provedena detekce a pokud se podaˇrilo nalést znaˇcky daných vlastnost´ı, vytvoˇr´ı se na výstupu obrázek s detekovanou znaˇcku.

Stejnˇe jako v prvn´ı ˇcásti je pro pouˇzit´ı slovn´ıku Harhes, EBR a IBR nejdˇr´ıve nutné obrázky detekovat pomoc´ı pˇr´ısluˇsných lokáln´ıch detektor˚u a následnˇe popsat. Tato ˇcást vˇsak nenaˇc´ıtá body do databáze, tud´ıˇz nen´ı nutné pouˇz´ıvat pouze formát JPG, ale lze pouˇz´ıt vˇetˇsinu známých grafických formát˚u (PNG, BMP, PGM, . . . ). Pˇri pouˇzit´ı detektor˚u SIFT a SURF pˇr´ısluˇsnou detekci opˇet zaˇr´ıd´ı program.

4.2.1 Nastaven´ı a inicializace parametr˚u

Pˇri spuˇstˇen´ı programu jsou stejnˇe jako u prvn´ı ˇcásti nejdˇr´ıve zpracovány vˇsechny parametry. Jedná se pˇredevˇs´ım o nastaven´ı cest k obrázk˚um, jejich detekc´ım, zvoleném slovn´ıku ˇci nastaven´ı vlastnost´ı vyhledáván´ı. Vˇsechny moˇznosti nastaven´ı jsou uvedeny v tabulce 4.2.

Parametr Popis Inicializace

–harhes [. . . ] pouˇzitý detektor (povinný údaj) –root string cesta do rootovského adresáˇre ../data/iblpr/ –imgs string cesta do adresáˇre s obrázky images/ –i string jednotlivé obrázky

–pts string cesta do adres´aˇre s detekovan´ymi body detects/

”detector“ –res string cesta do adres´aˇre s v´ysledky detekce results/

–words integer poˇcet slov ve slovn´ıku 10000

–pca integer velikost dimenze vektoru pˇr´ıznak˚u pokud nezad´ana, PCA nepouˇzita –defocusing velikost matice pro rozostˇren´ı 5 (5x5)

–localmax velikost matice pro lok´aln´ı maxima 5 (5x5) –showpoints pokud zad´ano, vyhresl´ı i body false

Tabulka 4.2: Popis vstupn´ıch parametr˚u

Parametr −i slouˇz´ı pro samostatnou detekci. Pro jednoduchost totiˇz program naˇc´ıtá vˇsechny obrázky z adresáˇre oznaˇceného parametrem −imgs. Pokud uˇzivatel chce detekovat pouze nˇekteré z tˇechto obrázk˚u, jednoduˇse zadá jejich jméno za parametr −i (pro kaˇzdý obrázek zvláˇst’).

Pˇr´ıklad spuˇstˇen´ı programu m˚uˇze vypadat n´asledovnˇe:

iblpr.exe −ebr −words 10000 −def ocusing 5 −localmax 7 −showpoints −i 001.jpg (4.2) Coˇz znamená, ˇze uˇzivatel chce detekovat znaˇcku pomoc´ı EBR význaˇcných bod˚u, za pouˇzit´ı slovn´ıku o velikosti 10000 slov. Rozostˇren´ı bude provedeno v matici o velikosti 5x5 a následnˇe budou lokáln´ı maxima hledána v matici o velikosti 7x7. Dál mimo znaˇcky chce i zakreslit do obrázku vˇsechny význaˇcné body. To vˇse chce provést pouze na obrázku 001.jpg, který je um´ıstˇen v ../data/iblpr/images (protoˇze cesta nebyla zmˇenˇena). Zm´ınˇené EBR význaˇcné body program hledá rovnˇeˇz v inicializované cestˇe ../data/iblpr/detects/ebr.

(37)

4.2.2 Detekce

Nejdˇr´ıve program naˇcte do matice zvolený slovn´ık. Do druhé matice se stejným poˇctem ˇrádk˚u a ˇs´ıˇrkou 1 se naˇctou pravdˇepodobnosti jednotlivých slov. Jak bylo vysvˇetleno v teoretické ˇcásti, detekce je zaloˇzena na nalezen´ı nejbl´ıˇzˇs´ıho slova ke kaˇzdému bodu, resp. jeho pˇr´ıznakovému vektoru. Aby bylo toto vyhledán´ı co nejrychlejˇs´ı, jsou vˇsechna slova uspoˇrádána do kd-stromu.

Následnˇe je ve smyˇcce pro kaˇzdý obrázek postupnˇe provedena detekce znaˇcky. Do dalˇs´ı matice jsou naˇcteny vˇsechny významné body v obraze. Pro detektory Harhes, EBR a IBR jsou naˇcteny z pˇr´ısluˇsných textových soubor˚u, pro detektory SIFT a SURF je detekce provedena pˇr´ımo na obrázku.

Pro kaˇzdý pˇr´ıznakový vektor je nalezeno nejbliˇzˇs´ıch slov. Funkce pro nalezen´ı daného slova je dobˇre optimalizovaná, tud´ıˇz vyhledáván´ı trvá velmi krátkou dobu. Z matice s pravdˇepodobnostmi tˇechto slov lze následnˇe urˇcit, s jakou pravdˇepodobnost´ı se daný bod nalézá uvnitˇr hledané znaˇcky.

Do mapy vah se pro daný bod konkrétnˇe poˇc´ıtaj´ı hodnoty pravdˇepodobnosti, ˇze jemu nejbliˇzˇs´ı slovo je obsaˇzeno ve znaˇcce (”in”), od které je odeˇctena pravdˇepodobnost, ˇze ve znaˇcce nen´ı (”out”). Jelikoˇz byly anotována vˇsechna vstupn´ı data, ze kterých se vytváˇrel slovn´ık, lze pravdˇepodobnost, ˇze slovo nepopisuje znaˇcku vypoˇc´ıtat jako ”out” = 1 − ”in”. T´ım pádem ve vzniklé mapˇe vah jsou hodnoty 2 ∗ ”in” − 1 pro jednotlivé bod˚u. Pro pro-veden´ı této operace pro vˇsechny body vznikne kompletn´ı mapa vah o stejné velikosti jako p˚uvodn´ı obrázek.

Mapa je poté rozostˇrena, aby se zbavila ˇsumu, tedy pˇredevˇs´ım osamocených bod˚u. Dˇeje se tak skrz matici o zvolené velikosti. Následnˇe jsou nalezena lokáln´ı maxima, která jiˇz oznaˇcuj´ı hledanou znaˇcku. Maxima se nalézaj´ı v m´ıstech, kde byla nejvˇetˇs´ı koncentrace bod˚u s velkými pravdˇepodobnostmi.

Kolem maxim jsou vytvoˇreny dvˇe kruˇznice (ˇcerná a b´ılá) kv˚uli zvýraznˇen´ı.

Na závˇer je do obrázku vepsána informace, za pouˇzit´ı jakého slovn´ıku byla detekce provedena a obrázek je uloˇzen. Pokud program mˇel na vstupu jen jeden obrázek, je na závˇer i zobrazen. Je samozˇrejmˇe jeˇstˇe uvolnˇena alokovaná pamˇet’ a program ˇrádnˇe ukonˇcen.