Univerza v Ljubljani
Fakulteta za raˇ
cunalniˇ
stvo in informatiko ter
Fakulteta za matematiko in fiziko
Blaˇz Peterlin
Izboljˇ
sava metode za sledenje
objektov z dinamiˇ
cnimi grafi
DIPLOMSKO DELO
NA INTERDISCIPLINARNEM UNIVERZITETNEM ˇSTUDIJU RA ˇCUNALNIˇSTVA IN MATEMATIKE
Mentor: doc. dr. Matej Kristan
Rezultati diplomskega dela so intelektualna lastnina Fakultete za raˇcunalniˇstvo in informatiko ter Fakultete za matematiko in fiziko, Univerze
v Ljubljani. Za objavljanje ali izkoriˇsˇcanje rezultatov diplomskega dela je potrebno pisno soglasje avtorja, Fakultete za raˇcunalniˇstvo in informatiko,
Fakulteta za raˇcunalniˇstvo in informatiko izdaja naslednjo nalogo: Tematika naloge:
Vizualno sledenje objektov je trenutno izredno aktivno podroˇcje raˇcunalniˇskega vida. Zgolj v zadnjih nekaj letih smo priˇca izjemnemu porastu ˇstevila no-vih sledilnih algoritmov, o ˇcemer priˇcajo ˇstevilni pregledni ˇclanki in velika udeleˇzba na mednarodnih izzivih. Rezultati izzivov VOT priˇcajo o potenci-alu sledilnikov, ki temeljijo na delih. V nalogi izberite sledilnik iz te druˇzine sledilnikov ter predlagajte izboljˇsave. Izboljˇsave kvantitativno podprite z analizo na standardni zbirki VOT.
IZJAVA O AVTORSTVU
diplomskega dela
Spodaj podpisani Blaˇz Peterlin, z vpisno ˇstevilko 63080385,
sem avtor diplomskega dela z naslovom:
Izboljˇsava metode za sledenje objektov z dinamiˇcnimi grafi
S svojim podpisom zagotavljam, da:
• sem diplomsko delo izdelal samostojno pod mentorstvom doc. dr. Mateja Kristana
• so elektronska oblika diplomskega dela, naslov (slov., angl.), povzetek (slov., angl.) ter kljuˇcne besede (slov., angl.) identiˇcni s tiskano obliko diplomskega dela
• soglaˇsam z javno objavo elektronske oblike diplomskega dela v zbirki ”Dela FRI”.
Zahvaljujem se svojemu mentorju doc. dr. Mateju Kristanu za potrpeˇzljivost, nasvete in entuziazem, ki so mi dali dodatno motivacijo za dokonˇcanje di-plomskega dela. Globoko sem hvaleˇzen tudi svoji druˇzini za nenehno podporo skozi nastajanje diplomskega dela.
Kazalo
Povzetek Abstract 1 Uvod 1 1.1 Motivacija . . . 1 1.2 Sorodna dela . . . 3 1.3 Prispevki . . . 4 1.4 Struktura naloge . . . 5 2 Izvorni sledilnik DGT 7 2.1 Teoretiˇcne osnove . . . 72.2 Kratek opis sledilnika DGT . . . 16
2.3 Podroben opis sledilnika DGT . . . 18
3 Predlagane izboljˇsave sledilnika DGT 25 3.1 Izboljˇsava uporabe klasifikatorja SVM . . . 25
3.2 Robustna detekcija ospredja . . . 26
4 Eksperimentalna analiza 29 4.1 Implementacija in parametri . . . 29
4.2 Protokol evaluacije in mere . . . 30
5 Sklep 39 5.1 Moˇzne nadgradnje . . . 40
Seznam uporabljenih kratic
kratica angleˇsko slovensko
DGT Dynamic Graph Tracker Sledilnik na podlagi dinamiˇcnih grafov SVM Support Vector Machine Metoda podpornih vektorjev
Povzetek
Naslov: Izboljˇsava metode za sledenje objektov z dinamiˇcnimi grafi
Diplomska naloga obravnava izboljˇsavo sledilnika za kratkotrajno vizualno sledenje objektom. Sledilnik modelira sledilni objekt kot dinamiˇcni graf sli-kovnih regij, kjer so bliˇznje regije med seboj povezane. Struktura in prila-godljivost grafa sta uporabna za kvalitetno sledenje navkljub obseˇznim vi-zualnim spremembam sledilnega objekta skozi zaporedje slik. Sledilnik se je v preteklih primerjavah s konkurenco izkazal kot kvaliteten, a z nekaj oˇcitnimi pomanjkljivostmi, predvsem pri primerih s pogosto spreminjajoˇco se osvetlitvijo objekta. Na podlagi poglobljene analize sledilnika predlagamo nekaj izboljˇsav. Odkrili smo pomanjkljivo implementacijo v sklopu razdeli-tve slike na ospredje in ozadje. Predlagamo ustrezno izboljˇsavo, ki sledilniku poveˇca natanˇcnost, predvsem v primerih hitrih sprememb osvetlitve. Poleg tega predlagamo dinamiˇcno prilagajanje omenjene razdelitve glede na veli-kost nastalega ospredja, ki sledilniku poveˇca zanesljivost trajnega sledenja tarˇci. Analizo in primerjavo razvitih izboljˇsav smo izvedli s pomoˇcjo oce-njevalnih algoritmov iz tekmovanja VOT2015. Popravek algoritma v sklopu razdelitve slike na ospredje in ozadje izboljˇsa natanˇcnost sledilnika pred-vsem v primerih hitrih sprememb osvetlitve sledilnega objekta, hkrati pa mu izboljˇsa zanesljivost. Obenem naredi dinamiˇcno prilagajanje razdelitve sle-dilnik natanˇcnejˇsi in precej zanesljivejˇsi v veliki veˇcini situacij izven hitrih sprememb osvetlitve.
Kljuˇcne besede: raˇcunalniˇski vid, vizualno sledenje objektom, model na podlagi delcev, dinamiˇcni graf, analiza strukture grafa.
Abstract
Title: An improved dynamic graph tracking algoritm
We propose several improvements of an existing baseline short-term visual tracking algorithm. The baseline tracker applies a dynamic graph represen-tation to track the target. The target local parts are used as nodes in the graph, while the connections between neighboring parts represent the graph edges. This flexible model proves useful in the presence of extensive target vi-sual changes throughout the sequence. A recent benchmark has shown that the tracker compares favorably in performance with other state-of-the-art trackers, with a notable weakness in cases of input sequences with high vari-ance in scene and object lighting. We have performed an in-depth analysis of the tracker and propose a list of improvements. With respect to an unsta-ble component in the tracker implementation of the foreground/background image segmentation, we propose an improvement which boosts the accuracy in cases of rapid illumination change of the target. We also propose a dy-namic adjustment of the aforementioned segmentation with respect to the size of the resulting foreground, which improves tracking reliability and re-duces the number of tracking failures. The implemented improvements are analyzed on the VOT2015 benchmark. Fixing the unstable component yields improvements in cases of rapid illumination change and reduces failure rate, while the dynamic segmentation adjustment improves tracking accuracy and robustness in the vast majority of cases, barring rapid illumination change. Keywords: computer vision, visual object tracking, part-based model, dy-namic graph, graph structure analysis.
Poglavje 1
Uvod
1.1
Motivacija
Zajem objektov iz videoposnetkov je temeljna zahteva z razmeroma dolgo zgodovino ˇsirom podroˇcja raˇcunalniˇskega vida [1]. Osnovna naloga je na-tanˇcno sledenje objekta v videoposnetku - iz vsake slike videa je potrebno izvleˇci poloˇzaj ˇzelenega sledilnega objekta (glej Sliko 1.1). Problem lahko po-globimo z zahtevo po simultanemu sledenju veˇc objektom [2] (angl. “multi-target”) namesto enemu [26, 47, 48] (angl. “single-“multi-target”). Po drugi strani imamo lahko na voljo veˇc hkratnih videoposnetkov, ki prikazujejo isto sceno [49] (angl. “multi-camera”), namesto enega [50] (angl. “single-camera”).
Teˇznja po kakovostnem zajemu objektov iz videoposnetkov se poraja pri
Slika 1.1: Primer sledenja objektu iz videoposnetka. Reˇsitev sledenja je prikazana z oˇcrtanim pravokotnikom.
2 POGLAVJE 1. UVOD mnogih realnih programskih zahtevah, naˇstejmo jih le nekaj:
• napredni varnostni sistemi s kamerami, • medicinska slikanja,
• kompresija in urejanje videa,
• zajem gibanja v okviru interakcije ˇclovek – raˇcunalnik.
V praksi se pri reˇsevanju tega problema pogosto sreˇcujemo z naslednjimi teˇzavami, ki kvarijo kakovost digitalnega zajema objekta:
1. Sprememba osvetlitve (angl. “illumination change”). Zaradi premi-kanja objektov po prostoru in perturbacije virov osvetlitve se lahko barvna sestava objekta skozi ˇcas drastiˇcno spremeni.
2. Sprememba velikosti objekta (angl. “object size change”). Objekt se na videoposnetku lahko veˇca ali manjˇsa, glede na bliˇzino kameri. 3. Delna ali polna zakritost dela objekta zaradi okolice (angl. “object
occlusion”).
4. Sprememba izgleda objekta (angl. “object deformation”). Izraz vkljuˇcuje spremembo vidne povrˇsine objekta zaradi rotacije in/ali preoblikovanja strukture objekta.
Zaradi ˇcedalje pogostejˇse teˇznje po kakovostni reˇsitvi problema in veˇcje dostopnosti do dovoljˇsnje raˇcunske moˇci se zadnja leta po hitrem postopku razvijajo ˇcedalje boljˇse reˇsitve. Stanje in primerjavo raznolikih reˇsitev je moˇc spremljati preko raznih tekmovanj [3, 4, 5, 6, 7, 8], med drugim tudi na tekmovanju Visual Object Tracking Challenge (s kratico VOT ) [26].
VOT se osredotoˇca na problem sledenja enojnemu objektu z eno kamero. Natanˇcneje od prisostvujoˇcih sledilnikov zahteva:
• naj bodo sploˇsni, brez predhodnih oz. parametriˇcnih informacij o sle-dilnem objektu (nekatere delavnice se osredotoˇcijo npr. specifiˇcno na sledenje ˇcloveˇskemu obrazu),
1.2. SORODNA DELA 3 • sledilnik dobi kot zaˇcetno informacijo le oˇcrtani pravokotnik (porav-nan po oseh) v prvi sliki, znotraj katerega se nahaja objekt, zatem pa mora sproti za naslednje slike izraˇcunati nadaljnje oˇcrtane pravokotnike objekta,
• sledilniku ni treba posebej preverjati, ˇce znotraj posnetka izgubi sled za iskanim objektom, saj bo avtomatsko postavljen nazaj na pravilne tirnice, ˇce za objekt predolgo doloˇca napaˇcno lokacijo na slikah videa. Podrobnejˇsi opis ocenjevalca sledilnikov v okviru VOT sledi v Poglavju 4.
1.2
Sorodna dela
Najuspeˇsnejˇsi algoritmi za sledenje objektom spadajo v dve kategoriji glede na osnovni pristop k problemu: holistiˇcni sledilniki, ki tarˇco modelirajo kot eno skupno celoto, in pa sledilniki z regijami, ki tarˇco modelirajo kot struk-turo veˇc med seboj povezanih regij. Sledilniki pod drobnogledom nadalje uporabljajo raznolik razpon orodij.
Generativni holistiˇcni sledilniki sestavijo model o izgledu tarˇce, nato pa poiˇsˇcejo za ta model lokacijo na sliki, ki maksimira podobnost med modelom in okoliˇsem lokacije na sliki. Med generativne modele uvrˇsˇcamo npr. bliˇzinske histograme [9], glasovanja glede na podobnost razprˇsenih slik blizu tarˇce [10], glasovanja na podlagi metode glavnih osi (angl. “Principal Component Analysis”) [11], in kombiniranje bliˇznjih znaˇcilk [10, 12].
Diskriminativni holistiˇcni sledilniki se po drugi strani lotevajo problema tako, da ga prevedejo na problem razloˇcevanja slike na ospredje in ozadje - ospredje slike je tisti del slike, kjer se nahaja sledilni objekt, ozadje slike pa obsega vse ostalo. Nekateri sledilniki uporabljajo binarne klasifikatorje [13, 14] (npr. metodo podpornih vektorjev in Adaboost). Uporablja se tudi prirejena strukturirana metoda podpornih vektorjev, ki namesto binarne kla-sifikacije le glasuje za ospredje ali ozadje [17]. Uspeˇsni so algoritmi, ki upo-rabljajo nauˇcene korelacijske filtre, ki sliko razdelijo na ospredje in ozadje [57, 15, 16].
4 POGLAVJE 1. UVOD Sledilniki z regijami so odpornejˇsi na spremembo izgleda objekta in delno zakritost objekta. Za doloˇcanje regij je na voljo veˇc razliˇcnih strategij: enako-merna porazdelitev regij po sliki [18, 19, 20], zdruˇzevanje razbitij [21, 22, 23], kombiniranje bliˇznjih toˇckovnih znaˇcilk [24], itd. Tudi struktura regij je lahko definirana na veˇc naˇcinov: model zvezdice temelji na relativnih lokaci-jah vsake ospredne regije glede na centralno lokacijo objekta [18, 20], model neusmerjenega grafa interpretira regije kot vozliˇsˇca grafa [21], itd.
Izsledki iz VOT2013 [42], VOT2014 [43], in VOT2015 [44] kaˇzejo, da so na prvih mestih poveˇcini sledilniki brez znanja o strukturi sledilnega objekta. Ena od izjem je sledilnik Dynamic Graph Tracker (v nadaljevanju DGT) [35]. DGT deluje na podlagi regij - znaˇcilk z barvnimi karakteristikami in se moˇcno naslanja na ohranjanje medsebojne strukture znaˇcilk v ospredju. V VOT2014 se je DGT izkazal kot kakovosten sledilnik, ki pa je izpadel iz samega vrha zaradi slabˇsih rezultatov v posnetkih, kjer so bili sledilni objekti prepogosto zakriti ali pa se je osvetlitev preveˇc spreminjala [36]. Sledilnik se je izkazal kot najzanesljivejˇsi v primerih visoke dinamike velikosti sledilnega objekta.
1.3
Prispevki
V diplomski nalogi se osredotoˇcamo na sledilnik DGT [35]. Z eksperimen-talno analizo originalnega sledilnika smo identificirali njegove glavne pomanj-kljivosti in predlagamo potencialne izboljˇsave. Izvorni sledilnik je pogosto izgubil sled za sledilnim objektom, kadar je le-ta v videoposnetku prehitro spreminjal barvno sestavo. V Poglavju 3.1 je opisan pogost vzrok ranljivosti ter predlagan popravek implementacije sledilnika. Popravek hkrati izboljˇsa zgornjo mejo ˇcasovne zahtevnosti algoritma.
Obˇcasno se zgodi, da izvorni sledilnik kot del objekta nehote zajame tudi kos ozadja za objektom, ker je podobnih barv ali pa se zdi, da spada v strukturo objekta. V Poglavju 3.2 opisujemo predlog izboljˇsave, ki pogosto prepreˇci takˇsno divergenco sledilnika. Uspeˇsnost izboljˇsav smo analizirali s
1.4. STRUKTURA NALOGE 5 pomoˇcjo ocenjevalnega protokola iz VOT2015 [44].
1.4
Struktura naloge
Diplomsko delo je v nadaljevanju razdeljeno na ˇstiri poglavja. Poglavje 2 vsebuje teoretiˇcno podlago ter podroben opis izvornega sledilnika Dynamic Graph Tracker [35]. Sledi Poglavje 3 s predlaganimi izboljˇsavami sledilnika. Implementacija izboljˇsav in analiza uspeˇsnosti sta opisani v Poglavju 4, nakar v Poglavju 5 sledi ˇse sklep in predlog dodatnih moˇznih nadgradenj algoritma.
Poglavje 2
Izvorni sledilnik DGT
V tem poglavju podrobno predstavimo sledilnik DGT. V Poglavju 2.1 so predstavljeni teoretiˇcni koncepti, potrebni za razumevanje opisa algoritma. Zavoljo razumevanja je nato zaˇcrtana osnovna ideja algoritma DGT v Po-glavju 2.2, zatem pa je v PoPo-glavju 2.3 algoritem ˇse podrobno opisan. Poglavje predpostavlja poznavanje osnov teorije grafov, linearne algebre, in strojnega uˇcenja.
2.1
Teoretiˇ
cne osnove
2.1.1
Barvni prostori
Na podroˇcju raˇcunalniˇskega vida se za razliˇcne potrebe uporablja nekaj razliˇcnih barvnih prostorov. V nadaljevanju opisujemo le prostore RGB, Luv ter HSV, ki so nujni za razumevanje delovanja sledilnika DGT. ˇSirˇsa obravnava barvnih prostorov se nahaja v [59]. Za potrebe razlage postavimo vse dimenzije prostorov na interval [0, 1].
• RGB je najpogostejˇsi 3D barvni prostor, kjer vsaka dimenzija predsta-vlja vsebnost ene od treh barv (rdeˇca, zelena in modra). Vsaka od treh vrednosti opiˇse, koliko svetlobe v ustrezni barvi je potrebno oddati. • HSV je eden od alternativnih barvnih prostorov v treh dimenzijah. Naj
8 POGLAVJE 2. IZVORNI SLEDILNIK DGT za barvo c poznamo vrednosti v prostoru RGB. V pomoˇc si definirajmo vmesne spremenljivke: MHSV := max (R, G, B) mHSV := min (R, G, B) CHSV := MHSV − mHSV r := MHSV − R CHSV , g := MHSV − G CHSV , b := MHSV − B CHSV . (2.1)
Vrednosti v prostoru HSV izraˇcunamo na naslednji naˇcin [45]:
– Za barvni odtenek (angl. “hue”) H najprej izraˇcunamo ˇse vmesno vrednost H1 kot H1(c) := 5 + b; R ≡ MHSV, G ≡ mHSV 1 − g; R ≡ MHSV, G 6= mHSV 1 + r; R 6= MHSV, G ≡ MHSV, B ≡ mHSV 3 − b; R 6= MHSV, G ≡ MHSV, B 6= mHSV 3 + g; R 6= MHSV, G 6= MHSV, B ≡ MHSV, B ≡ mHSV 5 − r; sicer , kjer velja H(c) := H1(c) 6 .
– Nasiˇcenost (angl. “saturation”) je definirana kot S(c) := MHSV − mHSV
MHSV
. – Informacija o svetlosti barve je definirana kot
V (c) := MHSV.
• Barvni prostor “Luv” (natanˇcneje CIELUV) je 3D barvni prostor, ki podpira opis vseh barv, ki jih lahko vidimo s ˇcloveˇskim oˇcesom, kar
2.1. TEORETI ˇCNE OSNOVE 9 ne velja za ostale zgoraj opisane prostore. Dimenziji u in v opisujeta odtenek barve (u med zeleno in magento, v med modro in rumeno). Dimenzija L opisuje svetlost barve.
Podrobnejˇsa definicija prostora “Luv” je kompleksna in je zato tu izpuˇsˇcena [25].
2.1.2
Superpiksli
Naloga superpikselskih algoritmov je razbitje slike v kose pikslov - superpiksle [46] (glej Sliko 2.1), kjer se za vsak kos priˇcakuje, da se vizualno razume kot enotna regija (tipiˇcno se iˇsˇce ˇcimviˇsjo homogenost po barvni sestavi). ˇStevilo konˇcnih superpikslov je precej manjˇse od ˇstevila izvornih pikslov slike - glede na parametre najpogosteje za veˇc redov velikosti, kar botruje obˇcutnemu zmanjˇsanju zahtevnosti pri algoritmiˇcnem obdelovanju slik. Razbitje na su-perpiksle deluje uˇcinkovito za potrebe segmentacije slike (kvalificiranje slike na veˇc delov). Nabor konˇcnih superpikslov je moˇzno interpretirati tudi kot povezan graf znaˇcilk slike.
Algoritem Simple Linear Iterative Clustering
Obstaja veˇc pristopov za algoritme, ki izraˇcunavajo superpiksle slike [30, 31, 32, 33]. Osredotoˇcimo se na algoritem Simple Linear Iterative Clustering (SLIC) [28], ki ga odlikuje kakovostno in hitro delovanje. Algoritem prejme kot parameter poleg slike ˇse ˇzeleno ˇstevilo superpikslov K.
Algoritem vsak piksel slike obravnava kot toˇcko v petih dimenzijah, ki vsebuje lokacijo piksla na sliki (x, y) in tri komponente barve v prostoru “Luv” (L, u, v). Nato definira razdaljo med piksli dSLIC, ki nagrajuje
loka-cijsko bliˇzino, hkrati pa tudi podobnost barve.
V grobem algoritem SLIC najprej po vhodni sliki postavi K pribliˇzno enakomerno razporejenih toˇck, ki sluˇzijo kot srediˇsˇca zaˇcetnih superpikslov. Nato algoritem ponavlja naslednje korake iteracije do konvergence (ponavadi od 4 do 10 ponavljanj):
10 POGLAVJE 2. IZVORNI SLEDILNIK DGT
Slika 2.1: Primeri razbitja slik na superpiksle. Za vsako od treh slik so podani trije primeri razbitij, glede na ˇzeleno velikost superpikslov, podano s parametrom. Vir: [27]
1. Vsak piksel slike se razporedi v superpiksel, ki pripada najbliˇzjemu srediˇsˇcu (po Evklidski razdalji).
2. Ponovno se izraˇcunajo srediˇsˇca za vsak superpiksel. Srediˇsˇca so izraˇcunana kot povpreˇcja vsebovanih pikslov v prostoru Luvxy.
Po konˇcanih iteracijah algoritem priredi konˇcne superpiksle, da dobijo ˇse lastnost povezanosti (vsak superpiksel je ena povezana gruˇca pikslov, brez loˇcenih regij).
Ob pogledu na konˇcne rezultate delovanja algoritma SLIC (glej Sliko 2.1) lahko opazimo naslednje znaˇcilnosti, ki se izkaˇzejo za uporabne pri praktiˇcni uporabi superpikslov:
• V veliki veˇcini so superpiksli medsebojno podobni po velikosti (tj. ˇsirini regije, dolˇzini regije in ˇstevilu vsebovanih pikslov).
• Superpiksli izvirajo iz pribliˇznih centriˇsˇc, ki so enakomerno mreˇzno porazdeljena po sliki.
2.1. TEORETI ˇCNE OSNOVE 11 • Superpiksli dosledno zaznamujejo meje med razliˇcnimi objekti na sliki,
dokler se objekti dovolj razlikujejo po barvi in teksturi.
Algoritem SLIC ima ˇcasovno zahtevnost O(n), kjer n oznaˇcuje ˇstevilo pikslov. Obstaja tudi podrazliˇcica algoritma, SLICO [29], ki ne potrebuje parametra za ˇzeleno ˇstevilo konˇcnih superpikslov.
2.1.3
Mere razdalj med barvnimi histogrami
V sklopu naloge se uporablja razdalja hi − kvadrat. Denimo, da imamo podana barvna histograma velikosti N , h1 in h2, z vrednostmi med 0 in N :
h1, h2 ∈ [0 .. U ]N.
Razdalja hi − kvadrat je definirana kot χ2(h1, h2) := 1 2 X i (h1[i] − h2[i])2 (h1[i] + h2[i]) , kjer je h [i] i-ta celica histograma.
Metrika deluje na temeljih norme L2, vendar poleg tega ˇse pomanjˇsa
obˇcutljivost med vrednostima, ki sta si relativno podobni (za primer - metrika je petkrat obˇcutljivejˇsa na razliko med vrednostima 0 in 0.2, kot pa med vrednostima 0.4 in 0.6).
2.1.4
Razbitje grafa
Razbitje slike na dve ali veˇc regij je pogost problem na podroˇcju raˇcunalniˇskega vida. Podana je mnoˇzica vseh znaˇcilk V na sliki, hkrati pa ocenjevalna funk-cija
f : V × {0, 1} 7→ R. (2.2) S pomoˇcjo f bi lahko po znaˇcilkah neposredno izpeljali verjetnost, ali je znaˇcilka del ospredja
12 POGLAVJE 2. IZVORNI SLEDILNIK DGT Vendar pa od osprednega objekta ponavadi priˇcakujemo, da je geometrijsko ˇcimbolj homogen in brez samotnih znaˇcilk, nasutih po sliki, pa tudi brez posamiˇcnih lukenj. Preprosta reˇsitev, s katero bi znaˇcilke razloˇcili glede na neko mejo po P, se tako izkaˇze za nepopolno. Za boljˇso reˇsitev se zateˇcemo k algoritmu za razbitje grafa GraphCut [39].
Za uporabo algoritma GraphCut moramo problem prirediti na uteˇzen graf. Definirajmo nov uteˇzen graf
G = (V ∪ {u, b}, E) , (2.4) kjer dodatni toˇcki konceptualno predstavljata izvir (u) in ponor (v). Teˇzo povezav med u ter ostalimi toˇckami nastavimo na
wux= f (x, 1); x ∈ V,
do v pa
wvx = f (x, 0); x ∈ V.
Toˇcki u in v med sabo nimata povezave. Dodajmo ˇse povezave med prostor-sko sosednjimi toˇckami a, b ∈ V :
wab = g(a, b),
kjer g(a, b) doloˇci barvno podobnost med znaˇcilkama a in b.
Sedaj lahko problem razbitja mnoˇzice znaˇcilk V prevedemo v minimalni u-v razrez grafa G. Reˇsitev razreza je hkrati tudi maksimalno a posteriori razbitje znaˇcilk na ospredje in ozadje, glede na informacije funkcij f in g.
2.1.5
Ujemanje med grafi barvnih znaˇ
cilk prek
podob-nostne matrike
Podana imamo grafa G = (V, E) in G0 = (V0, E0), kjer sta V in V0 mnoˇzici barvnih znaˇcilk. ˇZelimo najti ujemajoˇce se pare znaˇcilk (v, v0); v ∈ V, v0 ∈ V0.
2.1. TEORETI ˇCNE OSNOVE 13 (v naˇsem primeru znaˇcilkami). Ponavadi bi to predstavili kot dodelitveno matriko
Y ∈ {0, 1}|V |×|V0|, kjer
Yii0 = 1 ⇐⇒ Ti se ujema s Ti0.
Dodelitvena matrika naj ima vsoto po vsakem posameznem stolpcu in po vsaki vrstici kveˇcjemu 1, tako, da se vsako vozliˇsˇce ujema ali z enim ali z nobenim sovozliˇsˇcem iz nasprotnega grafa.
Za potrebe algoritma raje definirajmo reˇsitev v eni dimenziji - dodelitveni vektor
z ∈ {0, 1}|V |×|V0|, kjer
zi+i0|V | = 1 ⇐⇒ Ti se ujema s Ti0.
Dodelitveni vektor naj vsebuje tudi na enak naˇcin preoblikovane dodatne omejitve. Naj obstaja ocenjevalna funkcija S(z), ki ocenjuje primernost do-delitve z. Optimalna reˇsitev ˜z je potemtakem enaka
˜z = arg max
z
S(z). (2.5)
Tako moramo poiskati ˇcimboljˇso ocenjevalno funkcijo S(z) ter zatem ˇse ustre-zno optimizacijsko metodo za iskanje ˜z. Naivna inaˇcica S(z) bi nagrajevala le podobnost barvnih izgledov znaˇcilk. Sestavimo podobnostno matriko
A ∈ RnP×nQ,
kjer elementi Aii0 predstavljajo podobnost barvnega izgleda med vozliˇsˇcema
Ti in Ti0, glede na neko razdaljo med barvnimi histogrami ρcol.
Aii0 = ρcol(hi, hi0)
Zopet prevedimo reˇsitev v enodimenzionalni prostor z vektorjem b ∈ R|P |×|Q|.
14 POGLAVJE 2. IZVORNI SLEDILNIK DGT Sedaj lahko izraˇcunamo kandidatno reˇsitev
S0(z) = zTb.
Barvni histogrami po znaˇcilkah so si med seboj lahko zelo podobni po obˇsirnih obmoˇcjih na sliki. Poleg tega je obmoˇcij z enakovredno barvno predstavo pogosto tudi veˇc. Ker z omenjeno reˇsitvijo upoˇstevamo le podob-nost barv, bi optimalni rezultat lahko vseboval tudi nepravilna ujemanja med znaˇcilkami. Za vsako znaˇcilko bi si intuitivno ˇzeleli ne le, da ohrani pribliˇzno barvno sestavo in pozicijo, temveˇc, da hkrati obdrˇzi tudi nabor ˇcimveˇc sose-dnih znaˇcilk. Prevedeno v teorijo grafov to pomeni, da ˇzelimo ohraniti tudi povezave vsake toˇcke. Za nove zahteve bo potrebno sestaviti bolj zapleteno ocenjevalno funkcijo. Dosedaj smo maksimirali z glede na dodatni vektor b, ki je za vsak element zi+i0|V | naˇsel podobnost glede na faktor, podan v
elementu bi+i0|V|, ki predstavlja barvno podobnost. Po novem bi si za vsak
element iz z izraˇcunali tako barvno podobnost, kot tudi barvno podobnost sosedov, za podani znaˇcilki Ti in Ti0.
Definirajmo novo matriko
C ∈ R(|P ||Q|)×(|P ||Q|), ki je sestavljena iz
C = Cpart+ Ccon.
Cpartnaj bo diagonalna matrika, kjer po diagonali potekajo po vrsti
vredno-sti, identiˇcne zgoraj definiranemu vektorju b. ˇCe primerjamo znaˇcilki i in i0, dobimo indeks
i00:= (i − 1)nV + i0.
Za tak indeks i00 torej velja:
Cparti00,i00 := bi00
Cconnaj bo matrika, ki zapolni vse vrednosti, razen diagonale. Naj obstajata toˇcki i, j ∈ G in toˇcki i0, j0 ∈ G0. ˇZelimo preveriti podobnost med relacijo ~ij
2.1. TEORETI ˇCNE OSNOVE 15 in relacijo ~i0j0. Pozicija te vrednosti na matriki izhaja iz indeksov
i00:= (i − 1)nV + i0
ter
j00 := (j − 1)nV + j0.
Potem velja:
Cconi00,j00 := ρcon(eij, ei0j0),
kjer je ρconneka razdalja med povezavama eij in ei0j0. Iz tako dobljene matrike
C izgotovimo ocenjevalno funkcijo:
S1(z) = zTCz (2.6)
Glede na izbiro funkcij ρcol in ρcon bo S1(z) ustrezno ocenila primernost
ujemanja z.
Spektralno ujemanje ˇ
Zelimo reˇsiti optimizacijski problem iz enaˇcbe (2.5), kjer je S(z) predstavljen v enaˇcbi (2.6). Tu uporabimo spektralno metodo [34], ki ponuja hiter izraˇcun reˇsitve, kar ustreza potrebam algoritma. Problem ujemanja grafov glede na podobnostno matriko prevedemo na iskanje najviˇsjih lastnih vektorjev matrike. Sooˇcamo se z optimizacijskim problemom:
˜z = arg max
z
zTCz (2.7) Formulo pretvorimo na tak naˇcin, da hkrati opisuje formulo za Rayleighov kvocient: ˜ z = arg max z zTCz zTz ; zTz ≡ 1 (2.8) Pod predpostavko, da je matrika C hermitska, je dominantna lastna vre-dnost matrike enaka optimalni reˇsitvi enaˇcbe (2.8). Iskanje ˜z je torej ekvi-valentno iskanju dominantnega lastnega vektorja z1 matrike C. Pod
pred-postavko, da je matrika C nenegativna in simetriˇcna, je dominantni lastni vektor z1 izraˇcunljiv ter nenegativen. z1 torej vsebuje vrednosti v intervalu
16 POGLAVJE 2. IZVORNI SLEDILNIK DGT [0, 1]. Manjka nam ˇse omejitev optimalne reˇsitve ˜z na diskretni vrednosti 0 in 1:
˜
z ∈ {0, 1}|V ||V0|.
Vsako vrednost znotraj z1 lahko interpretiramo kot zaupanje v ujemanje Uii0
[34]. Zato se odloˇcimo le za ujemanja znotraj z1, ki presegajo nek prag. Tiste
vrednosti znotraj z1, ki presegajo doloˇcen prag, doloˇcimo v ˜z kot 1, ostale
pa kot 0. Podrobnejˇsi opis algoritma za reˇsitev enaˇcbe (2.8) je obrazloˇzen v viru [34].
2.2
Kratek opis sledilnika DGT
Cilj vizualnega sledilnika je zaporedno doloˇcanje lokacije sledilnega objekta iz podanih zaporednih slik videa. Sledi grob oris glavnih korakov sledilnika, za-tem pa ˇse poglavje s podrobno razlago korakov. V pomoˇc doloˇcitvi sledilnega objekta algoritem sproti vsako sliko najprej razbije na ˇstevilne drobne kose oz. regije, nakar poskuˇsa ˇcimbolje razdeliti nabor regij na tiste iz ospredja in tiste iz ozadja. Regije ospredja nato zdruˇzi v skupno strukturo – vizualne analize vsake ospredne regije ter njihove medsebojne povezave se zdruˇzijo v neusmerjeni dinamiˇcni graf G. Sledenje objektu se tako prevede na sledenje grafu slikovnih regij, katerih namen je sestaviti mozaik sledilnega objekta (Slika 2.2).
Sproti pri vsaki naslednji sliki posnetka se tako najprej sooˇcimo z nalogo razvrstitve regij slike na ospredje in ozadje. Ozirajoˇc se na konˇcni dinamiˇcni (neusmerjeni) graf prejˇsnje slike G0 je potrebno iz sprotne slike sestaviti
naslednji dinamiˇcni graf G1. V iteraciji po slikah videoposnetka torej za
vsako sliko v grobem izvedemo naslednje korake:
1. Sliko najprej razbijemo na mozaik slikovnih regij s pomoˇcjo superpi-kselskega algoritma (glej Poglavje 2.1.2). Slikovne regije lahko v nada-ljevanju (za laˇzje razumevanje) okliˇcemo kot superpiksle.
2.2. KRATEK OPIS SLEDILNIKA DGT 17
Slika 2.2: Dva primera poteka sledilnika DGT. Na sliki (a) je prikazano razbitje slike na razmeroma homogene slikovne regije. Na sliki (b) je prikazan nabor slikovnih regij, ki jih algoritem oznaˇci kot del ospredja. Na sliki (c) je prikazan konˇcni graf, ki predstavlja sledilni objekt. Vir slik: [35]
ozremo na barvno sestavo ospredij in ozadij preteklih slik. Razdeli-tev je opravljena s pomoˇcjo metode podpornih vektorjev (angl. “Su-pport Vector Machine”, SVM) ter ˇse izboljˇsana z uporabo Markovskega sluˇcajnega polja [60] (angl. “Markov Random Field”, MRF).
3. Ustvarimo kandidatni neusmerjeni graf G0 iz osprednih superpikslov (kot vozliˇsˇc) in njihovih internih medsebojnih relacij (kot povezav). Medsebojne relacije dodamo le med bliˇznjimi, poveˇcini dotikajoˇcimi se superpiksli.
4. Med zadnjim konˇcnim dinamiˇcnim grafom G0 in kandidatnim grafom
G0 izraˇcunamo optimalno ujemanje, ki iz grafa G0 izluˇsˇci najbolj pri-merne superpiksle za ospredje. Ujemanje izraˇcunamo na podlagi po-dobnostne matrike med grafoma - s pomoˇcjo spektralne analize algori-tem izluˇsˇci poglavitno skupino ujemanj, tj. ujemanj, ki so statistiˇcno najbolj verjetna.
18 POGLAVJE 2. IZVORNI SLEDILNIK DGT
Slika 2.3: Osnovni prikaz delovanja sledilnika. V (a) je razvidna uvodna izbira sledilnega objekta glede na zaˇcetni okvirni pravokotnik. V (b) je pokazan skonstruiran graf objekta. (c) predstavlja razbitje naslednje slike na superpiksle, (d) izbrane kandidatne superpiksle ter kandidatni graf, (e) konˇcni izraˇcunan graf objekta po obdelavi nove slike, (f) pa glasovalne toˇcke za izbiro konˇcne izraˇcunane lokacije objekta. Vir: [41]
5. Iz grafov G0in G0 na podlagi ujemanj sestavimo konˇcni graf G1 na novi
sliki, ki vsebuje vse superpiksle, ki predstavljajo sledilni objekt. 6. Ker se za ocenjevanje sledilnih algoritmov navadno zahtevajo
enostav-nejˇsi opisi sledilnega objekta (kot npr. oˇcrtan pravokotnik v VOT [26]), na koncu izraˇcunamo ˇse ˇcimbolj reprezentativen oˇcrtane pravokotnik.
2.3
Podroben opis sledilnika DGT
Kot je opisano v Poglavju 2.2, sledilnik DGT sestoji iz veˇc loˇcenih zapore-dnih podnalog. V naslednjih odsekih je podrobno opisano delovanje vsake podnaloge.
2.3.1
Konstrukcija kandidatnega grafa
Ob vsaki sprotni sliki je najprej potrebno sestaviti kandidatni graf, ki poskusi opisati strukturo sledilnega objekta v sprotni sliki brez dodatne informacije o strukturi objekta iz prejˇsnjih slik. Sestaviti ˇzelimo graf, ki vsebuje ˇcim manj
2.3. PODROBEN OPIS SLEDILNIKA DGT 19 artefaktov, ki bi spadali v ozadje slike. Iz sprotne slike upoˇstevamo le okvir, postavljen v bliˇznji okolici lokacije objekta na prejˇsnji sliki.
Izbira slikovnih regij iz ospredja
Najprej se izvorno sliko razbije na mnoˇzico slikovnih regij Tps pomoˇcjo
super-pikselskega algoritma SLIC [27], kot je razvidno na Sliki 2.3(c). Superpiksle ˇzelimo razdeliti na ospredje in ozadje. Najprej definirajmo energijsko funkcijo Markovskega sluˇcajnega polja:
E(B) =X p∈S Dp(bp) + X p,q∈U Vp,q(bp, bq). (2.9)
Tu je B = {bp | bp ∈ {0, 1} , p ∈ S} ena od vseh kombinatoriˇcno moˇznih
raz-delitev superpikslov na ospredje in ozadje:
bp = 1 ⇐⇒ superpiksel tp je postavljen v ospredje.
S je mnoˇzica vseh superpikslov v ciljnem okviru dobljene slike, U pa mnoˇzica vseh parov sosednjih (t.j. dotikajoˇcih se) superpikslov. Dp(bp) predstavlja
unarni potencial superpiksla bp, Vp,q(bp, bq) pa doda ˇse medsebojni potencial
sosednjih superpikslov tp in tq.
Potrebno je najti razdelitev superpikslov B, ki minimira rezultat ener-gijske funkcije (2.9). Za reˇsitev optimizacijskega problema je uporabljen algoritem GraphCut [38]. Za unarni potencial Dp(bp) se uporablja uteˇzen
seˇstevek
Dp(bp) = λkumDpKU M(bp) + DSV Mp (bp). (2.10)
DKU M
p (bp) je izraˇcunana verjetnost, ali superpiksel tp spada v ospredje
ozi-roma v ozadje, glede na celotno kumulativno zgodovino barvne sestave objekta v videoposnetku: DpKU M(bp) = − 1 Np PNp i=1logP (ci | h1); bp ≡ 1 − 1 Np PNp i=1logP (ci | h0); bp ≡ 0 .
Tu h0 in h1 oznaˇcujeta histograme ozadja in ospredja, izraˇcunane iz vseh
20 POGLAVJE 2. IZVORNI SLEDILNIK DGT pikslov v superpikslu tp. P (Ci | H) je verjetnost, da se barva Ci nahaja
znotraj histograma H.
Drugi del seˇstevka znotraj enaˇcbe (2.10) se nanaˇsa na precej bolj di-namiˇcno komponento za klasificiranje glede na barvno sestavo - uporablja se SVM, nauˇcen iz preteklih ospredij in ozadij,
DpSV M(bp) = λsvmSV M (h\ p); SV M (h\ p) ≥ 0, bp ≡ 1 1 − λsvmSV M (h\ p); SV M (h\ p) ≥ 0, bp ≡ 0 \ SV M (hp); SV M (h\ p) < 0, bp ≡ 1 1 − \SV M (hp); SV M (h\ p) < 0, bp ≡ 0
kjer hp oznaˇcuje histogram superpiksla tp v barvnem prostoru HSV. λsvm
je parameter, s pomoˇcjo katerega lahko poveˇcamo moˇc osprednih barv -zaradi potreb algoritma si namreˇc prej ˇzelimo izvleci preveˇc “osprednih” superpikslov, kot pa premalo. V nadaljevanju algoritma postojijo ˇse drugi mehanizmi, ki kasneje zmanjˇsajo konˇcno ˇstevilo osprednih superpikslov. Kla-sifikator SVM se uˇci sproti preko uˇcnega algoritma LASVM (glej Poglavje 2.1.2).
Medsebojni potencial superpikslov Vp,q(bp, bq) nastavimo tako, da je enaka
barvni podobnosti med superpiksloma
Vp,q(bp, bq) = e−ρcol(hp,hq),
kjer je ρcol(·, ·) definirana kot standardna razdalja hi-kvadrat med
histogra-moma.
S tako definiranim medsebojnim potencialom dobi potencialna funkcija teˇznjo, da sosednje superpiksle s podobno barvo poskusi obdrˇzati skupaj v ospredju ali ozadju.
Postopek izbire osprednih slikovnih regij sklenemo z uporabo algoritma GraphCut [38] nad potencialno funkcijo iz enaˇcbe (2.9), s ˇcimer dobimo mnoˇzico kandidatnih osprednih superpikslov B0. Ospredne superpiksle defi-nirajmo kot mnoˇzico Tp0, kjer velja:
2.3. PODROBEN OPIS SLEDILNIKA DGT 21
Slika 2.4: Primer povezanosti osprednih superpikslov na sledilnem objektu. V (a) je viden sledilni objekt iz originalne slike, v (b) pa so izrisani ospredni, medsebojno povezani superpiksli.
Konstrukcija grafa
Iz mnoˇzice kandidatnih osprednih superpikslov Tp0 definirajmo graf G0 = (V0, E0), kjer dodamo le povezave med geometrijsko bliˇznjimi superpiksli.
V0 = Tp0E0 = {ei0j0; || tp0 − tr0 ||2 ≤ }
Spomnimo se, da imajo superpiksli, pripravljeni s pomoˇcjo algoritma SLIC, standardno koliˇcino vsebovanih pikslov Nt. Ker so superpiksli
raz-porejeni po kvadratni mreˇzi, je njihova povpreˇcna dolˇzina (in ˇsirina) enaka d =√Nt. Potem nastavimo = d, s ˇcimer poskrbimo, da je vsak obravnavan
superpiksel potencialno povezan z osmimi geometrijskimi sosedi (vodoravno, navpiˇcno in po obeh diagonalah). Primer povezav lahko vidimo na Sliki 2.4.
2.3.2
Ujemanje dinamiˇ
cnega in kandidatnega grafa
Za dobro delovanje algoritma je potrebno kvalitetno ujemanje med dose-dajˇsnjim grafom G0 = (V, E) in novim kandidatnim grafom G0 = (V0, E0),
saj prek ujemanja dobimo informacijo o tem, kateri deli objekta iz prejˇsnjih slik so obstali tudi na novi sliki.
22 POGLAVJE 2. IZVORNI SLEDILNIK DGT Konstrukcija podobnostne matrike
Skonstruirati ˇzelimo podobnostno matriko C, in sicer na naˇcin, opisan v Poglavju 2.1.5. Matrika C je sestavljena iz dveh matrik: C = Cpart+ Ccon,
kjer je element diagonalne matrike Cpart definiran kot podobnost znaˇcilk T i
in Ti0: Cparti00,i00 := ωpart(Ti, Ti0). Podobnost znaˇcilk ωpart(·, ·) izraˇcunamo
glede na razdaljo med barvnimi histogrami: ωpart(Ti, Ti0) = e−
1
2ρcol(hi,hi0)2,
kjer je ρcol zopet postavljena kot razdalja hi-kvadrat. Matrika Ccon
obrav-nava ujemanje med dvema povezavama znaˇcilk, eij ∈ E in e0i0j0 ∈ E0. Hkrati
torej ujemamo para znaˇcilk (Ti, Ti0) in (Tj, Tj0), glede na podobnost njunih
povezav: Ccon
i00,j00 := ωcon(Ti, Tj, Ti0, Tj0). Podobnost povezav izraˇcunamo
kot ωcon(Ti, Tj, Ti0, Tj0) = e− d2 2ρcon(eij,ei0j0) 2 , kjer je ρcon definirana kot norma
ρcon(eij, ei0j0) := || (li− lj) − (li0− lj0) ||2 ,
kjer li oznaˇcuje lokacijo superpiksla ti.
Funkcija ωpart(Ti, Ti0) ocenjuje primernost ujemanja (Ti, Ti0) glede na
barvno sestavo ujemajoˇcih se superpikslov, ωcon(T
i, Tj, Ti0, Tj0) pa
primer-nost dveh ujemanj (Ti, Ti0) in (Tj, Tj0) glede na podobnost njunih notranjih
povezav. ωcon(·, ·, ·, ·) deluje kot moˇcna geometrijska omejitev pri ujemanju
grafov - ˇce sta bila dva superpiksla Ti in Tj iz prejˇsnjega grafa sosednja, dobi
ujemalna funkcija moˇcno incentivo, da najde kandidatna superpiksla Ti0 in
Tj0, ki poleg podobne barvne sestave vsebujeta tudi podoben par povezav ter
sta geometrijsko med seboj na podobnih lokacijah.
Konˇcne dimenzije matrike C so (|V ||V0|) × (|V ||V0|). Dimenzije so
pre-obseˇzne za praktiˇcno reˇsevanje problema prek enaˇcb (2.5) in (2.6). Poleg tega je matrika ˇse vedno preveˇc sploˇsna in dopuˇsˇca preveˇc moˇznih reˇsitev. Matriko C zato najprej ˇse razredˇcimo - poskusimo nastaviti ˇcimveˇc vrednosti matrike Ci00,j00 na 0, ˇce lahko za takˇsna ujemanja z gotovostjo zatrdimo, da bi
2.3. PODROBEN OPIS SLEDILNIKA DGT 23
Slika 2.5: Primerjava dveh naˇcinov ujemanja dinamiˇcnega in kandidatnega grafa glede na matriko C. Na sliki (a) je prikazana reˇsitev, pridobljena s pomoˇcjo spektralnega ujemanja. Na sliki (b) je prikazana reˇsitev, pridobljena s pomoˇcjo pohlepne strategije, ki po vrsti ujema pare znaˇcilk z najviˇsjimi ocenami ujemanja. Rdeˇce ˇcrte prikazujejo pravilna ujemanja, rumene pa napaˇcna. Vir: [35]
bila tako ali tako nesmiselna. Podpremo le ujemanja med superpiksli, katerih medsebojna razdalja je pod doloˇceno zgornjo vrednostjo: || li − li0 ||2≤ dδ,
kjer je δ = 32, d pa je enaka povpreˇcni ˇsirini oz. dolˇzini superpiksla (glej Poglavje 2.3.1).
Dodamo ˇse ostro omejitev ujemanja med superpiksli glede na barvno podobnost. Dopustimo le ujemanja, kjer velja ωpart(T
i, Ti0) ≥ 0.3. Zatem
dopustimo za vsako znaˇcilko iz prejˇsnjega grafa le 5 najpodobnejˇsih kandi-datnih znaˇcilk (glede na ωpart). Omejimo tudi ujemanje med povezavami -morebitno razliko nagiba povezave omejimo na kveˇcjemu 60◦. Odpravimo tudi povezave, kjer ρcon(eij, ei0j0) ≥ d.
Spektralno ujemanje
Glede na podano in ustrezno razredˇceno podobnostno matriko C sestavimo funkcijo S(z) glede na (2.6). V nadaljevanju se lotimo optimizacijskega pro-blema iz (2.5), za kar uporabimo reˇsitev, opisano v Poglavju 2.1.5. Prek primerjave s pohlepnim ujemanjem lahko na Sliki 2.5 vidimo, da je uporaba spektralnega ujemanja kljuˇcnega pomena za uspeh algoritma. S pomoˇcjo
24 POGLAVJE 2. IZVORNI SLEDILNIK DGT optimalnega ujemanja smo torej dobili nabor superpikslov T0 iz kandida-tnega grafa G0, ki smo jih zaznali kot “naslednike” superpikslov iz prejˇsnjega dinamiˇcnega grafa G0.
2.3.3
Sestava konˇ
cnega grafa sprotne strukture objekta
Za konˇcni preraˇcunan dinamiˇcni graf G1 v iteraciji ˇzelimo, da vsebuje vse
superpiksle, ki naj bi predstavljali sledilni objekt na sliki. Logika posodobitve dinamiˇcnega grafa vsakemu vozliˇsˇcu predpisuje eno od treh moˇznih stanj:
• Zaˇcetek: Znaˇcilka t0i (t.j. eden od superpikslov iz kandidatnega grafa G0) je v zaˇcetnem stanju, ˇce ni v mnoˇzici “naslednikov” T0. Da di-namiˇcni graf ne izpade preveˇc gost, naj bo znaˇcilka tudi dovolj daleˇc od ostalih potencialnih znaˇcilk: || t0i− t0
j ||2 > 0.35d ∀t0j ∈ T 0\{t0
i}.
• Stabilnost: Znaˇcilka t0
i je stabilna, ˇce je v mnoˇzici T
0. Poleg tega
kot stabilne upoˇstevamo tudi znaˇcilke, ki niso vsebovane v optimal-nem ujemanju, a lahko zanje uspeˇsno najdemo predhodnike iz G1 s
podobnim izgledom in pribliˇzno isto lokacijo: ρcol(hp, hq) > 0.4 in
|| li− li0 ||2 < 0.25d.
• Zakljuˇcek: Znaˇcilka je v zakljuˇcnem stanju, ˇce ni bila stabilna ˇze zadnjih 5 slik.
Ustvarimo nov dinamiˇcni graf G1, ki je kopija prejˇsnjega grafa G0. Ko ima
vsaka znaˇcilka doloˇceno stanje, se iz dinamiˇcnega grafa G1 izbriˇsejo znaˇcilke
z zakljuˇcnim stanjem ter dodajo znaˇcilke z zaˇcetnim stanjem (ki so bile sicer znotraj kandidatnega grafa G0). V G1 se dodajo tudi ustrezne povezave med
novimi in starimi znaˇcilkami, glede na njihovo geometrijsko bliˇzino. Tako smo dobili konˇcni graf G1, ki nam bo v pomoˇc pri raˇcunanju lokacije objekta
Poglavje 3
Predlagane izboljˇ
save sledilnika
DGT
Sledilnik DGT [35] se je znotraj VOT2014 [36] izkazal kot eden najnatanˇcnejˇsih, a je imel teˇzave v primerih spremembe osvetlitve sledilnega objekta. Iz-boljˇsave delovanja so bile zato usmerjene predvsem napram izboljˇsavam pri teh problematiˇcnih odstopanjih.
3.1
Izboljˇ
sava uporabe klasifikatorja SVM
V Poglavju 2.3.1 je opisana uporaba klasifikatorja SVM, s pomoˇcjo katerega algoritem pridobi sposobnost zanesljivega prilagajanja klasificiranj barv na ospredje in ozadje. Za uˇcenje SVM uporabi algoritem LASVM [40]. LASVM uˇcne podatke pridobi na koncu vsake iteracije za vsak piksel posebej. Obrav-navajo se le piksli znotraj ciljnega okvira, ki obsega bliˇznjo okolico lokacije objekta.
Ob podrobnem pregledu implementacije algoritma se je pokazalo, da je koliˇcina uˇcnih podatkov skozi vrsto slik preveˇc obremenila klasifikator SVM. Zahtevan ˇcas za klasifikacijo superpiksla se je v zaporedju pribliˇzno petdesetih slik postopoma toliko poveˇcal, da je zahteval ˇze veˇc kot polovico skupnega ˇcasa celotnega algoritma DGT. V izogib tej teˇzavi algoritem DGT resetira
26 POGLAVJE 3. PREDLAGANE IZBOLJˇSAVE SLEDILNIKA DGT
Slika 3.1: Primer treh zaporednih slik, kjer se osvetlitev objekta hitro spre-minja.
celoten klasifikator SVM na vsakih 20 slik. Poslediˇcno je klasifikator na vsaki dvajseti sliki postal za nekaj sprotnih slik precej nezanesljiv. Algoritem v veˇcini primerov pri mnogokratnikih 20. slike ni imel teˇzav, saj se sledilni objekti le redko moˇcno spremenijo po barvni sestavi. Vseeno je bilo moˇzno najti primere posnetkov, kjer se je osvetljenost objekta moˇcno spreminjala ravno pri obˇcutljivih slikah (glej Sliko 3.1), s ˇcimer so se zamenjale tudi ospredne barve objekta. V takˇsnih primerih je algoritem popolnoma izgubil sled za objektom.
Sistem klasifikacije superpikslov na ospredje in ozadje je bil v okviru di-plomske naloge prirejen. Enojni klasifikator SVM se je zamenjalo z dvema loˇcenima klasifikatorjema SVM, ki se izmenjujeta. Vsak klasifikator se naj-prej inicializira iz 15 sprotnih slik, nato pa naslednjih 15 slik (poleg uˇcenja) tudi klasificira superpiksle. Po 30 slikah se klasifikator resetira. Klasifika-torja se izmenjujeta, tako, da je eden od njiju vedno v stanju uˇcenja, drugi pa v stanju klasificiranja. Na ta naˇcin se je odpravila obˇcutljivost na hude spremembe osvetljenosti objekta v doloˇcenih primerih.
3.2
Robustna detekcija ospredja
V preizkusih algoritma smo opazili, da sledilnik DGT pogosto ne uspe najti sledilnega objekta niti v uvodni sliki, temveˇc kot ozadje oznaˇci kar celotno sliko. Poleg tega ima algoritem tendenco, da skozi ˇcas zaˇcenja nekatere dele objekta napaˇcno ocenjevati kot ozadje, posledica ˇcesar je, da se skozi dolgo zaporedje slik ˇcedalje veˇcji deleˇz sledilnega objekta oznaˇci kot del ozadja.
3.2. ROBUSTNA DETEKCIJA OSPREDJA 27
Slika 3.2: Primer postopnega poslabˇsanja razloˇcevanja med ospredjem in ozadjem slike zaradi podobnosti barv. Na vseh treh slikah je prikazan le tisti predel slike, ki ga algoritem DGT poroˇca kot ospredje.
Obˇcasno se zgodi tudi nasprotna situacija, kjer sledilnik zaˇcne pomotoma poveˇcevati ospredje (glej primer na Sliki 3.2).
Vzrok problema tiˇci v delu algoritma, opisanem v Poglavju 2.3.1. Za glasovanje, ali superpiksel spada v ospredje ali v ozadje glede na pretekle slike, uporabljamo uteˇzen seˇstevek funkcij DKU M
p (bp) in DSV Mp (bp). Vendar
pa nobena od teh dveh funkcij nima vpeljanih varovalk, ki bi poskrbele, da je vedno vsaj nek deleˇz superpikslov izglasovan kot del ospredja. Obe funkciji priredimo tako, da lahko s parametrom γ poviˇsamo deleˇz superpikslov, ki bi bili izglasovani kot del ospredja:
DKU Mp 0(bp, γ) = − γ Np PNp i=1logP (Ci | H1); bp ≡ 1 − 1 Np PNp i=1logP (Ci | H0); bp ≡ 0 DSV Mp 0(bp, γ) = γλsvmSV M (f\ p); SV M (f\ p) ≥ 0, bp ≡ 1 γ (1 − λsvm) \SV M (fp); SV M (f\ p) ≥ 0, bp ≡ 0 \ SV M (fp); SV M (f\ p) < 0, bp ≡ 1 1 − \SV M (fp); SV M (f\ p) < 0, bp ≡ 0
Sedaj lahko po dokonˇcani razdelitvi nabora superpikslov na ospredje in ozadje preverimo, ˇce je v bilo v ospredje dodeljenih dovolj elementov. V primeru premajhnega ˇstevila poskusimo znova s poviˇsanim parametrom γ.
28 POGLAVJE 3. PREDLAGANE IZBOLJˇSAVE SLEDILNIKA DGT Sledilnik v kasnejˇsem koraku ujema ustvarjen kandidatni graf ospredja z dolgotrajnim dinamiˇcnim grafom; tam s pomoˇcjo dodatnih omejitev pomaga odstraniti superpiksle, ki so v ospredje priˇsli ponesreˇci, dokler se jih ne pojavi preveˇc v predolgem zaporedju slik. Zato bi bilo idealno v ospredje prinesti nekaj veˇc objektov, kot pa jih sledilni objekt dejansko vsebuje. Za objekt lahko na naslednji sliki predpostavimo, da vsebuje vsaj nek deleˇz α ˇstevila superpikslov, ki jih je vseboval v prejˇsnji sliki.
Pri iterativnem poveˇcevanju parametra γ je potrebno biti pazljiv. Ceˇ parameter v enem koraku preveˇc poveˇcamo, bi se kot ospredje lahko oznaˇcilo preveˇc novih superpikslov. Zato postavimo zgornjo mejo - ˇstevilo superpi-kslov v ospredju lahko doseˇze najveˇcji deleˇz β od ˇstevila vseh obravnavanih superpikslov znotraj ciljnega okvirja. Ce se izkaˇˇ ze, da je deleˇz osprednih superpikslov presegel vrednost β, zaˇcnemo parameter γ polagoma manjˇsati (γ ← 0.97γ), dokler se pogoj ne uresniˇci.
Poglavje 4
Eksperimentalna analiza
4.1
Implementacija in parametri
Izvorni algoritem DGT je napisan v programskem jeziku C++ (izvorna koda je dosegljiva na spletu [41]). Implementacija sprememb je bila narejena v razvijalskem okolju Visual Studio. Analiza uˇcinkovitosti sprememb algoritma se je izvajala s pomoˇcjo v ta namen pripravljene knjiˇznice za MATLAB, narejene za potrebe VOT2015.
Izbrani so bili naslednji parametri:
• Uteˇz kumulativne klasifikacije ospredja/ozadja v energijski funkciji je λkum = 0.1 - tako je klasifikacija superpikslov na ospredje/ozadje
odvi-sna predvsem od dinamiˇcne komponente s klasifikatorjem SVM. Le v primeru neodloˇcne klasifikacije pride v poˇstev tudi verjetnost glede na celotno kumulativno zgodovino barvnih sestav ospredja/ozadja. Sledil-nik je moˇcno obˇcutljiv na ta parameter - ob zviˇsanju bi postal slabˇsi v primerih spremembe osvetlitve scene, ob zniˇzanju pa bi po daljˇsi za-kritosti dela sledilnega objekta le-tega ob ponovni pojavitvi veˇckrat izgubil. Glede na to, da ima sledilnik pogoste teˇzave v obeh primerih, bi bilo uteˇz λkum nespametno spreminjati za veˇc kot nekaj decimalk.
• Uteˇz klasificiranega ospredja klasifikatorja SVM je λsvm = 15. ˇZelimo
namreˇc obdrˇzati ˇcimveˇc pravilnih superpikslov iz ospredja, tudi, ˇce zato 29
30 POGLAVJE 4. EKSPERIMENTALNA ANALIZA pade v ospredje nekaj dodatnih nepravilnih superpikslov. Problemi iz-vornega algoritma se pogosto izraˇzajo zaradi toˇcne izbire te uteˇzi - ob previsoki vrednosti bi algoritem hitro kot ospredje vzel celotno sliko, ob prenizki pa bi kaj kmalu izgubil celotno ospredje. Optimalna izbira uteˇzi je moˇcno odvisna od primera do primera. Po implementaciji iz-boljˇsave za robustnejˇso detekcijo ospredja je algoritem malce odpornejˇsi na manjˇse spremembe uteˇzi.
• Zgornjo mejo β (v sklopu predloga robustne detekcije ospredja) posta-vimo na β = 0.6. ˇCe bi ˇstevilo superpikslov preseglo to mejo pri pra-vilnem delovanju, bi se moral objekt poveˇcati za skoraj sedemkrat, a se algoritmu precej veˇckrat zgodi, da do te meje pride zaradi napaˇcnega delovanja.
4.2
Protokol evaluacije in mere
Za evaluacijo algoritma je bil uporabljen sistem za analizo sledilnikov iz VOT2015 [44]. Nabor uporabljenih sekvenc v VOT2015 je sestavljen iz zbirk OTB [47], ALOV [48], PTR [51], nekaj pa tudi iz drugih virov. Protokol iz VOT2015 poda algoritmom oˇcrtan pravokotnik sledilnega objekta na uvodni sliki, nato pa zahteva oˇcrtan pravokotnik na vseh preostalih slikah po vrsti.
ˇ
Ce sledilni algoritem izgubi sled za objektom, se na naslednji sliki posnetka ponovno inicializira. Uporabljene so bile naslednje mere:
• Natanˇcnost izmeri, kako dobro je sledilni algoritem po slikah poroˇcal o oˇcrtan pravokotniku objekta.
• Robustnost izmeri, kolikokrat je sledilni algoritem skozi posnetek izgu-bil sled za objektom. Na neki sliki se sled ˇsteje za izgubljeno, ko se poroˇcan oˇcrtan pravokotnik niti ne dotika veˇc pravilne reˇsitve.
Na voljo je tudi dodatna analiza uspeˇsnosti sledilnikov v primerih, ko se sprotno sledenje objektu oteˇzi zaradi specifiˇcnih vizualnih sprememb (spre-memba osvetlitve, spre(spre-memba velikosti objekta, delna ali polna zakritost
4.3. ANALIZA USPEˇSNOSTI PREDLAGANIH IZBOLJˇSAV 31 Tabela 4.1: Razliˇcne variante algoritma DGT. DGTORIG je izvorna verzija
algoritma, DGT2SVM in DGTSESTAVLJEN pa izpeljanki.
Naziv sledilnika Izboljˇsava uporabe klasifikatorja SVM (Poglavje 3.1) Robustna de-tekcija ospredja (Poglavje 3.2) DGTORIG 7 7 DGT2SVM 3 7 DGTSESTAVLJEN 3 3
objekta, premikanje objekta, premikanje kamere), in pa analiza uspeˇsnosti v primerih sledenja brez dodatne teˇzavnosti. VOT ima namreˇc pripravljeno informacijo o intervalih znotraj videoposnetkov, kjer nastopijo vizualne spre-membe, po vsaki vrsti spremembe posebej. Poslediˇcno je bilo moˇzno tudi analitiˇcno preveriti uspeˇsnost predlaganih izboljˇsav, predvsem na podroˇcju spremembe osvetlitve objekta.
4.3
Analiza uspeˇ
snosti predlaganih izboljˇ
sav
Analiza je narejena nad tremi razliˇcnimi implementacijami algoritma DGT (glej Tabelo 4.1).
4.3.1
Kvalitativna analiza
Problemi sledenja objekta v primerih spremembe osvetlitve se lahko prikaˇzejo na razliˇcne naˇcine. Na Sliki 4.1 je prikazan primer, kjer se osvetlitev spremi-nja zelo hitro. V tem specifiˇcem primeru lahko vidimo, da izboljˇsava uporabe klasifikatorja SVM uspeˇsno izboljˇsa zanesljivost sledilnika. Po drugi strani na Sliki 4.2 naletimo na problem podobnih barv ospredja in ozadja. Problem sˇcasoma onesposobi originalni sledilnik, medtem ko mu popravek za robu-stnejˇso detekcijo ospredja prepreˇci, da bi ospredje prehitro ponesreˇci oznaˇcil kot ˇse en del ozadja.
32 POGLAVJE 4. EKSPERIMENTALNA ANALIZA
Slika 4.1: Primerjava sledenja slik s hitro spremembo osvetlitve. Vsak rdeˇci okvir predstavlja pravilno lokacijo tarˇce, zeleni okvir pa poskus sledenja tarˇci od sledilnika. V zgornjem zaporedju so vidni poskusi izvornega sledilnika DGTORIG, v spodnjem pa od obeh izpeljank, DGT2SVM in DGTSESTAVLJEN.
Prikazane slike posnetka so zaporedne.
Slika 4.2: Primerjava sledenja slik s podobnimi barvami v ospredju in ozadju. Vsak rdeˇci okvir predstavlja pravilno lokacijo tarˇce, zeleni okvir pa poskus sledenja tarˇci od sledilnika. V zgornjem zaporedju so vidni poskusi sledilnikov DGTORIGin DGT2SVM, v spodnjem pa od konˇcne izpeljanke DGTSESTAVLJEN.
4.3. ANALIZA USPEˇSNOSTI PREDLAGANIH IZBOLJˇSAV 33
4.3.2
Kvantitativna analiza
Kvantitativna analiza je narejena s pomoˇcjo ocenjevalnih algoritmov iz VOT2015. Medsebojna uspeˇsnost izboljˇsav algoritma (grupirano po razliˇcnih izzivih sle-denja) je prikazana na Sliki 4.3. Razliˇcica DGTSESTAVLJEN je najboljˇsa pri
vseh primerih, razen pri robustnosti glede na spremembo osvetlitve (kjer jo prehiti DGT2SVM). Pri tem velja poudariti, da je sledilnik DGT stohastiˇcen
(saj uporablja inaˇcico klasifikatorja SVM z nakljuˇcnim vzorˇcenjem uˇcnih pri-merov), zato je analiza manjˇsih sprememb v ocenah nesmiselna. Iz slike lahko razloˇcimo naslednje opazne spremembe uˇcinkovitosti sledilnika glede na iz-boljˇsavi:
• Izboljˇsava uporabe klasifikatorja SVM poviˇsa natanˇcnost pri spremembi osvetlitve in (nepriˇcakovano) poslabˇsa natanˇcnost pri spremembi ve-likosti - slednje spremembe glede na podrobnosti izboljˇsave ni moˇc razloˇziti. Izboljˇsava v sklopu robustnosti algoritem naredi zanesljivejˇsi po vseh primerih - poveˇcini zmanjˇsa ˇstevilo odpovedi za ca. 10-20%, razen v primerih brez posebnega izziva, ko robustnost ostaja podobna originalu.
• Robustna detekcija ospredja opazno izboljˇsa natanˇcnost pri gibanju ka-mere, spremembi osvetlitve, spremembi gibanja ter spremembi veliko-sti. Zmanjˇsa tudi ˇstevilo odpovedi po skoraj vseh primerih za nadaljnjih 20-40%. Opazna izjema pa je poslabˇsanje robustnosti v primeru spre-membe osvetlitve - po pregledu problematiˇcnih sekvenc se je izkazalo, da je sledenje postalo manj zanesljivo v primeri nizkega ˇstevila super-pikslov v ospredju. Kot se izkaˇze, je postavljena spodnja meja velikosti klasificiranega ospredja velikokrat povzroˇcila dodajanje kandidatov v ospredje, ki so pravzaprav del ozadja, ˇce so bili kandidati dovolj po-dobnih barv. Ti nepravilni kandidati so tako v sˇcasoma “prevzeli” vlogo ospredja sledilnika.
Inaˇcice sledilnika so nadalje primerjane z naslednjimi algoritmi, ki so pri-sostvovali na tekmovanju VOT2015 [37]:
34 POGLAVJE 4. EKSPERIMENTALNA ANALIZA
Slika 4.3: Primerjava uspeˇsnosti treh razliˇcic algoritma DGT glede na razliˇcne izzive sledenja videoposnetkov. Pri tem oznaka “prazno” oznaˇcuje primere brez dodatnega izziva.
4.3. ANALIZA USPEˇSNOSTI PREDLAGANIH IZBOLJˇSAV 35 • Standardni osnovni sledilniki: CT [10], IVT [11], MIL [52].
• Najboljˇsi sledilniki z regijami: LDP [53], TRIC-Track [54], AOG [55]. • Najboljˇsi holistiˇcni sledilniki: MDNet [56], DeepSRDCF [57], EBT [58]. Obseˇzna primerjava rezultatov je vidna na Tabeli 4.2, ki vkljuˇcuje povpreˇcno natanˇcnost, povpreˇcno robustnost, rangiranje natanˇcnosti in robustnosti ter skupno rangiranje. Podrobnejˇse grafe po razliˇcnih kriterijih je moˇc videti na Sliki 4.4. Ti grafi potrjujejo izsledke iz Slike 4.3 in pokaˇzejo, da sta izboljˇsavi sledilnik naredila precej kompetentnejˇsi predvsem, kar se tiˇce robustnosti. Glavna hiba sledilnika ostaja sprememba osvetlitve, kjer v primerjavi z naj-boljˇsimi sledilniki iz VOT2015 DGT ˇse vedno moˇcno zaostaja tako po na-tanˇcnosti kot po robustnosti. Kot najboljˇsa inaˇcica algoritma DGT se je, sodeˇc po rezultatih, odloˇcno odrezal DGTSESTAVLJEN. Tudi DGT2SVM se je
izkazal kot boljˇsi od DGTORIG.
Izvedla se je ˇse dodatna primerjava, ki je vkljuˇcevala prav vse sledilnike iz tekmovanja VOT2015. Sledilnik DGTSESTAVLJEN se je v skupnem rangiranju
uvrstil na 24. mesto, DGT2SVM na 43., DGTORIG pa je zasedel 51. mesto od
36 POGLAVJE 4. EKSPERIMENTALNA ANALIZA
Tabela 4.2: Primerjava uspeˇsnejˇsih sledilnikov po surovi natanˇcnosti SN, surovi robustnosti SR, rangu natanˇcnosti RN, rangu robustnosti RR, in sku-pnem rangu (skupni rang je enak SR+RN
2 ). Najboljˇsi rezultat po kategoriji je
oznaˇcen rdeˇce, drugi najboljˇsi modro, tretji pa zeleno.
Sledilnik SN SR RN RR Skupni rang MDNet 2.08 1.92 1.5 2.0 0.3783 DeepSRDCF 4.19 3.17 3.5 2.0 0.3181 EBT 7.83 2.13 7.5 2.0 0.3130 LDP 6.42 5.52 7.0 5.0 0.2785 tric 7.58 6.79 7.5 7.5 0.2088 AOGTracker 5.35 5.93 6.0 5.0 0.2080 DGTSESTAVLJEN 6.92 6.90 7.0 5.0 0.2076 baseline 6.08 8.16 7.0 7.5 0.1935 MIL 9.28 8.92 8.5 10.0 0.1710 DGT2SVM 7.83 9.22 8.0 10.0 0.1610 DGTORIG 8.21 10.11 8.0 10.0 0.1469 IVT 8.62 11.53 8.5 13.0 0.1220 CT 10.63 11.36 10.6 12.0 0.1135
4.3. ANALIZA USPEˇSNOSTI PREDLAGANIH IZBOLJˇSAV 37
Slika 4.4: Grafi algoritmov po razliˇcnih kriterijih. Vsak graf prikazuje na-tanˇcnost (angl. “accuracy”) in robustnost (angl. “robustness”) po algorit-mih, kjer viˇsja vrednost pomeni boljˇsi rezultat.
Poglavje 5
Sklep
V okviru diplomske naloge smo analizirali obstojeˇc algoritem za sledenje vizualnim objektom v videoposnetkih, DGT [35]. Glede na izsledke iz tek-movanja VOT2014 [36] smo ugotovili, da so ˇsibka toˇcka algoritma primeri, ko se osvetlitev sledilnega objekta hitro spreminja. Pregledali smo teoretiˇcne osnove ter analizirali osnovno zamisel in podrobno sestavo algoritma.
V algoritmu smo odkrili pomanjkljivo implementacijo uporabe klasifika-torja SVM, za katero smo izpeljali izboljˇsavo, ki je algoritem pohitrila in mu poviˇsala natanˇcnost, predvsem v primerih hitrih sprememb osvetlitve. Poleg tega je algoritem obˇcasno trpel za izgubo sledi nad tarˇco, vzrok katere je bilo preveliko poveˇcanje ˇstevila znaˇcilk - superpikslov, zaradi ˇcesar je algoritem sˇcasoma ozadje scene privzel kot tarˇco. Za bolj robustno detekcijo ospredja smo vpeljali izboljˇsavo, ki algoritem omeji s spodnjo in zgornjo mejo ˇstevila znaˇcilk v odvisnosti od zaˇcetne velikosti sledilnega objekta. Poslediˇcno je sledilnik postal stabilnejˇsi, kar se tiˇce zanesljivega sledenja tarˇci.
Iz algoritma smo (glede na predloga) izgotovili dve novi izpeljanki, ki smo ju s pomoˇcjo sistema za analizo sledilnikov iz VOT2015 analizirali ter primerjali s konkurenco. Oba predloga sta se izkazala kot uspeˇsna, saj se je iz-boljˇsala natanˇcnost sledilnika, povpreˇcno ˇstevilo odpovedi pa se je zmanjˇsalo za okoli 30%. Popravek pri uporabi klasifikatorja SVM je moˇcno izboljˇsal predvsem primere videoposnetkov s hitrimi spremembami osvetlitve. Po
40 POGLAVJE 5. SKLEP drugi strani je robustnejˇsa detekcija ospredja izboljˇsala algoritem v veliki veˇcini primerov, vendar se je ˇstevilo odpovedi v primerih hitrih sprememb osvetlitve poviˇsalo. Kljub temu se je sledilnik DGT, opremljen z obema iz-boljˇsavama, izkazal podobno ali bolje od originala v vseh preverjenih ocenah. S predlaganimi izboljˇsavami smo sledilnik pribliˇzali najuspeˇsnejˇsim iz tekmo-vanja VOT2015, saj se je (glede na vse sledilnike v tekmovanju VOT2015) povzpel iz 49. na 24. mesto od skupaj 63. Kljub poudarku na izboljˇsavah pri spremembah osvetlitve objekta pa je ta problem ˇse vedno najˇsibkejˇsa toˇcka izboljˇsanega sledilnika (glede na konkurenco).
5.1
Moˇ
zne nadgradnje
Implementacija algoritma DGT je ponekod ˇse vedno preveˇc toga. ˇCeprav je algoritem ˇze uˇcinkovit pri obˇcutnih spremembah velikosti objekta, se podre, kadar oˇcrtani pravokotnik okoli tarˇce preseˇze dimenzije na zaˇcetku izbranega okvirja okoli objekta. Nezanesljiv postane tudi, ko objekt postane tako manj, da ga pokriva le manj kot 5 superpikslov. S pazljivo izbrano dinamiˇcno velikostjo pravokotnika in superpikslov bi izboljˇsali robustnost in tudi hitrost algoritma.
Za izboljˇsano delovanje v primeru moˇcnih sprememb osvetlitve objekta bi bilo potrebno prevetriti korak zaˇcetne razdelitve superpikslov na ospredje in ozadje. Dodali bi lahko detekcijo sprememb svetlosti scene v zadnjih nekaj slikah. V primerih veˇcjih sprememb osvetlitve zadnjih nekaj slik bi lahko vpeljali modeliranje osvetlitve in na novi sliki predvideli na novo osvetljene barve ospredja ter ozadja scene.
Literatura
[1] P. F. Gabriel, J. G. Verly, J. H. Piater, A. Genon. “The State of the Art in Multiple Object Tracking Under Occlusion in Video Sequences”. [2] “Multiple Object Tracking Benchmark”. [Online]. Dosegljivo:
https://motchallenge.net/ [Dostopano 24. 8. 2016].
[3] D. P. Young, J. M. Ferryman. “PETS Metrics: On-line performance evaluation service”, v zborniku: ICCCN ’05 Proceedings of the 14th International Conference on Computer Communications and Networks, 2005, str. 317-324
[4] “CAVIAR: Context Aware Vision using Image-based Active Recogni-tion”. [Online]. Dosegljivo:
http://homepages.inf.ed.ac.uk/rbf/CAVIAR/ [Dostopano 31. 7. 2016]. [5] “Video Understanding Evaluation” [Online]. Dosegljivo:
http://www-sop.inria.fr/orion/ETISEO/ [Dostopano 31. 7. 2016]. [6] “CVBASE ’06 - Workshop on Computer Vision Based” [Online].
Dose-gljivo:
http://vision.fe.uni-lj.si/cvbase06/ [Dostopano 31. 7. 2016].
[7] P. J. Phillips, H. Moon, S. A. Rizvi, P. J. Rauss. “The feret evaluation methodology for face-recognition algorithms”, v zborniku: IEEE Trans. Pattern Anal. Mach. Intell. 22(10), 2000, str. 1090-1104
42 LITERATURA [8] R. Kasturi, D. B. Goldgof, P. Soundararajan, V. Manohar, J. S. Garo-folo, R. Bowers, M. Boonstra, V. N. Korzhova, J. Zhang. “Framework for performance evaluation of face, text, and vehicle detection and tracking in video: Data, metrics, and protocol”, v zborniku: . IEEE Trans. Pat-tern Anal. Mach. Intell. 31(2), 2009, str. 319-336
[9] H. Grabner, H. Bischof. “On-Line Selection of Discriminative Tracking Features”, Proc. IEEE CS Conf. Computer Vision and Pattern Reco-gnition
[10] K. Zhang, L. Zhang, M.-H. Yang. “Real-Time Compressive Tracking”, v zborniku: Proc. Eur. Conf. Comput. Vis., 2012, str. 864-877
[11] D. Ross, J. Lim, R. Lin, M. Yang. “Incremental Learning For Robust Visual Tracking”, v zborniku: Int’l J. Computer Vision, vol. 77, no. 1, 2007, str. 125-141
[12] Z. Hong, X. Mei, D. Prokhorov, D. Tao. “Tracking via robust multi-task multi-view joint sparse representation”, v zborniku: Proc. IEEE Int. Conf. Comput. Vis., str. 649-656
[13] S. Avidan. “Support Vector Tracking”, v zborniku: Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on, Vol. 1, 2001, str. 184-191 [14] H. Grabner, M. Grabner, H. Bischof. “Real-time tracking via online
boosting”, v zborniku: BMVC, 2006, str. 47-56
[15] M. Zhang, J. Xing, J. Gao, X. Shi, Q. Wang, W. Hu. “Joint Scale-Spatial Correlation Tracking with Adaptive Rotation Estimation”, v zborniku: 2015 IEEE International Conference on Computer Vision Workshop (ICCVW), 2015, str. 595-603
[16] Y. Li, J. Zhu. “A scale adaptive kernel correlation filter tracker with feature integration”, v zborniku: Proceedings of the ECCV Workshop, 2014, str. 254-265
LITERATURA 43 [17] S. Hare, A. Saffari, P. Torr. “Struck: Structured output tracking with
kernels”, ICCV (2011).
[18] A. Adam, E. Rivlin, I. Shimshoni. “Robust Fragments-Based Tracking Using the Integral Histogram”, v zborniku: Proc. IEEE CS Conf. Com-puter Vision and Pattern Recognition, str. 798-805
[19] L. Cehovin, M. Kristan, A. Leonardis. “An adaptive coupled-layer visual model for robust visual tracking”, v zborniku: Proc. IEEE ICCV, str. 1363-1370
[20] W. Wang, R. Nevatia. “Robust object tracking using constellation model with superpixel”, v zborniku: Proc. 11th ACCV, vol. 3, str. 191-204 [21] A. B. V. Graciano, R. M. Cesar, I. Bloch. “Graph-based object tracking
using structural pattern recognition”, v zborniku: Proc. SIBGRAPI, str. 179-186
[22] X. Ren, J. Malik. “Tracking as repeated figure/ground segmentation”, v zborniku: Proc. IEEE CVPR, str. 1-8
[23] S. Wang, H. Lu, F. Yang, M.-H. Yang. “Superpixel tracking”, v zbor-niku: Proc. IEEE ICCV, str. 1323-1330
[24] M. Yang, J. Yuan, Y. Wu. “Spatial selection for attentional visual tracking”, v zborniku: Proc. IEEE CVPR, str. 1-8
[25] D. B. Judd. ”Hue saturation and lightness of surface colors with chro-matic illumination”, v zborniku: JOSA 30(1), str. 2–32
[26] “Visual Object Tracking Challenge” [Online]. Dosegljivo: http://www.votchallenge.net/ [Dostopano 31.7.2016] [27] “SLIC Superpixels” [Online]. Dosegljivo:
44 LITERATURA [28] R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua, S. S¨usstrunk. “SLIC
Superpixels*”, v poroˇcilu: EPFL Technical Report no. 149300, 2010. [29] “SLIC Superpixels - SLICO” [Online]. Dosegljivo:
http://ivrl.epfl.ch/research/superpixels#SLICO [Dostopano 31.7.2016] [30] P. Felzenszwalb, D. Huttenlocher. “Efficient graph-based image
segmen-tation”, v zborniku: International Journal of Computer Vision, 59(2), 2004, str. 167-181
[31] G. Mori. “Guiding Model Search Using Segmentation”, v zborniku: IEEE international conference on computer vision (ICCV), 2007, str. 1-8
[32] A. Levinshtein, A. Stere, K. Kutulakos, D. Fleet, S. Dickinson, K. Sid-diqi. “Turbopixels: Fast superpixels using geometric flows.”, v zborniku: IEEE Transactions on Pattern Analysis and Machine Intelligence 31(12), 2009, str. 2290-2297
[33] A. Vedaldi, S. Soatto. “Quick shift and kernel methods for mode see-king”, v zborniku: European Conference on Computer Vision, 2008, str. 705-718
[34] M. Leordeanu, M. Hebert. “A Spectral Technique for Correspondence Problems”, v zborniku: Tenth IEEE International Conference on Com-puter Vision (ICCV’05) Volume 1 (Volume: 2), 2005, str. 1482-1489 (Vol. 2)
[35] Z. Cai, L. Wen, Z. Lei, N. Vasconcelos, S. Z. Li. “Robust Deformable and Occluded Object Tracking With Dynamic Graph”, v zborniku: IEEE Transactions on Image Processing. 23(12), 2014, str. 5497-5509.
[36] “The Visual Object Tracking VOT2014 challenge results” [Online]. Dosegljivo:
http://www.votchallenge.net/vot2014/download/vot 2014 paper.pdf [Dostopano 31.7.2016]
LITERATURA 45 [37] “The Visual Object Tracking VOT2015 challenge results” [Online].
Dosegljivo:
http://www.votchallenge.net/vot2015/download/vot 2015 paper.pdf [Dostopano 25.8.2016]
[38] Y. Boykov, V. Kolmogorov. “An experimental comparison of mincut/max-flow algorithms for energy minimization in vision”, v zbor-niku: IEEE Trans. Pattern Anal. Mach. Intell., Volume 26, ˇst. 9, 2004, str. 1124-1137
[39] Y. Boykov, O. Veksler, R. Zabih. “Fast Approximate Energy Minimiza-tion via Graph Cuts”, v zborniku: Proc. Medical Image Computing and Computer-Assisted Intervention, 2000, str. 276-286.
[40] A. Bordes, S. Ertekin, J. Weston, L. Bottou. “Fast kernel classifiers with online and active learning”, v zborniku: J. Mach. Learn. Res., vol. 6, 2005, str. 1579-1619
[41] “Robust Deformable and Occluded Object Tracking with Dynamic Graph” [Online]. Dosegljivo:
https://sites.google.com/site/zhaoweicai1989/dgt/ [Dostopano 14.8.2016]
[42] “VOT2013 Challenge” [Online]. Dosegljivo:
http://www.votchallenge.net/vot2013/ [Dostopano 14.8.2016] [43] “VOT2014 Challenge” [Online]. Dosegljivo:
http://www.votchallenge.net/vot2014/ [Dostopano 14.8.2016] [44] “VOT2015 Challenge” [Online]. Dosegljivo:
http://www.votchallenge.net/vot2015/ [Dostopano 14.8.2016]
[45] A. R. Smith. “Color Gamut Transform Pairs”, v zborniku: SIGGRAPH 78 Conference Proceedings, 1978, str. 12-19
46 LITERATURA [46] X. Ren, J. Malik. “Learning a Classification Model for Segmentation”, v zborniku: Computer Vision, 2003. Proceedings. Ninth IEEE Internation conference on, 2003, str. 10-17
[47] Y. Wu, J. Lim, M. H. Yang. “Online Object Tracking: A benchmark”, Computer Vision and Pattern Recognition, 2013
[48] A. W. M. Smeulders, D. M. Chu, R. Cucchiara, S. Calderara, A. De-hghan, M. Shah. “Visual Tracking: an Experimental Survey”, TPAMI, 2013
[49] F. Fleuret, J. Berclaz, R. Lengagne, P. Fua. “Multicamera people tracking with a probabilistic occupancy map”, v zborniku: IEEE Trans Pattern Anal Mach Intell 30(2), 2008, str. 267-282
[50] “Change Detection Workshop”. [Online]. Dosegljivo: “http://www.changedetection.net/” [Dostopano 24.8.2016]
[51] T. Vojir, J. Noskova, J. Matas. “Robust scale-adaptive mean-shift for tracking”, v zborniku: Image Analysis, 2013, str. 652-663
[52] B. Babenko, M.-H. Yang, S. Belongie. “Robust object tracking with online multiple instance learning”, v zborniku: IEEE Trans. Pattern Anal. Mach. Intell. 33 (8) (2011), str. 1619-1632
[53] A. Lukeˇziˇc. “Improved robust part-based model for visual object tracking”. Ljubljana : [A. Lukeˇziˇc], 2015
[54] X. Wang, M.F. Valstar, B. Martinez, M.H. Khan, T.P. Pridmore. “TRIC-track: Tracking by Regression with Incrementally Learned Ca-scades”, IEEE Int’l Conf. on Computer Vision (ICCV), 2015
[55] T. Wu, Y. Lu, S.-C. Zhu. “Online Object Tracking, Learning and Parsing with And-Or Graphs”, v zborniku: Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2014, str. 3462-3469
LITERATURA 47 [56] H. Nam, B. Han. “Learning Multi-Domain Convolutional Neural
Ne-tworks for Visual Tracking”, CoRR, 2015
[57] M. Danelljan, G. Hager, F. S. Khan, M. Felsberg. “Learning spatially regularized correlation filters for visual tracking”, International Confe-rence on Computer Vision, 2015
[58] G. Zhu, F. Porikli, H. Li. “Tracking randomly moving objects on edge box proposals”, CoRR, 2015
[59] M. D. Fairchild. “Color Appearance Models”. Wiley, 3rd edition, 2013 [60] R. Kindermann, J. L. Snell. “Markov Random Fields and Their