1 0
2 8 Internaitona lConferenceonCompute rScienceandSotfwareEngineeirng( CSSE2018) 8
7 9 : N B S
I -1-60595- 55 -1 5
c
i
m
a
n
y
D
e
h
t
n
i
n
o
it
c
e
t
e
D
o
e
d
i
V
e
h
T
e
v
it
is
n
e
S
e
h
t
n
o
d
e
s
a
B
d
n
u
o
r
g
k
c
a
B
A
r
e
a
s
i
L
e
u
y
i
a
K
d
n
a
u
i
L
i
Q
1
T C A R T S B A
a , s d n u o r g k c a b c i m a n y d x e l p m o c h ti w s i s y l a n a o e d i v f o e r u d e c o r p e h t g n ir u D
, t s ri F . d e t n e s e r p s a w s a e r a e v it is n e s e h t n o d e s a b n o it c e t e d t c e j b o f o d o h t e m w e n
e h t g n i s u y b p a m n o it a m r o f n i e v it c e ff e n a o t n i d e tr e v n o c s a w o e d i v a n i e m a rf h c a e
e d r e n r o c s ir r a
H teciton method .Second ,the sensiitve area sin the rfame were e h t f o s p a m n o it a m r o f n i e v it c e ff e e h t d n a n o it a m r o f n i t x e t n o c e h t g n i s u y b d e t c a rt x e
e t a d i d n a c e h t e r e w e m a rf o e d i v e h t n i s a e r a e v it i s n e s e h T . s e m a rf o e d i v e v it u c e s n o c
b o t e g r a t e h t e r e h w s a e r
a ject swould appea ra thigh probabiilites . Thrid ,the e h t m r o f o t d e t c a rt x e e r e w a e r a e v it is n e s h c a e f o s e r u t a e f y p o rt n e n o it a m r o f n i
t e g r a t e h t g n it c e l e s r o f d e n i a rt s a w l e d o m M V S n a , h c i h w n o d e s a b , x ir t a m e r u t a e f
t , y ll a n i F . s a e r a e v it is n e s e h t m o rf s a e r
a he locaiton so fthe object swere detected e h T . d n u o r g k c a b c i m a n y d x e l p m o c a h ti w o e d i v e h t n i s a e r a t e g r a t e h t n o d e s a b
e h t t s n i a g a s tl u s e r d o o g e v e i h c a d l u o c d o h t e m s i h t t a h t d e w o h s s tl u s e r l a t n e m ir e p x e
m o c g n i v a s f o e s i m e r p e h t n o 4 1 0 2 t e n D C f o k r a m h c n e
b puitngr esource .s
N O I T C U D O R T N I
d n a n o it c e t e d t e g r a t f o y g o l o n h c e t g n i s s e c o r p o e d i v e h t , e d a c e d t s a l e h t n I
d n e e h T . s s e r g o r p t a e r g e d a m s a h g n i k c a
rt - ot -end deep convoluitona lmodel scan e
p d o o g e v a
h frormancei ns peedandaccuracy[1.]I nvideoprocessing,t hesemodel s g n ir e fr e t n i e m o s n e h W . n o it a m r o f n i l a u t x e t n o c e h t n o d e s a b d e z i m it p o t o n e r a
, o e d i v e h t n i r a e p p a r e tt ij o e d i v r o , r u l b n o it o m , e g n a h c n o it a n i m u ll i e k il s r o t c a f
u
i L i
Q ,KaiyueLi y ti s r e v i n U i a h g n a h
. y l p r a h s s e n il c e d y c a r u c c a n o it i n g o c e
r Thespeedo fvideoproces isngr est swtiht he d
e t c e p s u s f o e m it g n i n o it i s o
p targe tareasi nt hevideo rfame[2] .Thecomputaitona l o
e d i v f o t s o
c processingdepend sont hecomplextiyoft hedeepnetworkmodel[3] . e
h t o t g n i d r o c c
A regulartiyoft hebackgroundchangeandt he ifntienes soft het arge t l
e d o m g n i s s e c o r p o e d i v e h t , y r o g e t a
c ,ilkeNoScopemodel ,][ 4 canbede isgnedand e
p s d e if i d o
m ciallyf ors omecetrains cenes.
k r o w t e n l a r u e n p e e d x e l p m o c f o e s u e h t g n i d i o v a s e ri u q e r g n is s e c o r p o e d i v e h T
. t s o c e r a w d r a h e c u d e r o
t A tthe same itme ,i taslo requrie sexploiitng the data y
c n a d n u d e
r between consecuitve rfame sto reduce so tfware (computaiton )cosst . u
h
Z [5 ]used sparse feature propagaiton to save these costs .These propagated m
a rf y e k e h t n o d e t a l u c l a c y l n o e r e w s e r u t a e
f esi nt hevideo .Howeve ,rt herei sno ta .s e m a rf o e d i v e h t ll a m o rf s e m a rf y e k e h t t c e l e s y ll a c i m a n y d o t d o h t e m r e p o r
p
e h t t c e t e d o t d e s o p o r p s a w s a e r a e v it i s n e s e h t n o d e s a b d o h t e m a , r e p a p s i h t n I
t r a h c w o lf e h T . d n u o r g k c a b c i m a n y d e h t n i t c e j b o o e d i
v oft hemethod i sshowni n
o t tl u c if fi d y r e v s i ti , d n u o r g k c a b e l b a e g n a h c d n a x e l p m o c a h ti w s o e d i v n I . 1 e r u g i F
e h t , r e v e w o H . y r o t c e j a rt n o it o m e h t y l n o y b e si o n e h t m o rf t e g r a t e h t h s i u g n it s i d
s e m a rf e v it u c e s n o c n e e w t e b y p o rt n e n o it a m r o f n i l a c o l f o e g n a h
c i se ffecitve in
e r o m e r a e m a rf o e d i v e h t n i s a e r a e v it is n e s e h t , n o it i d d a n I . t c e j b o e h t g n i y fi t n e d i
e m it f o t o l a d i o v a n a c t i o s , s t e g r a t d n u o r g e r o f n i a t n o c o t y l e k
il -consuming
o f n a h t r e h t a r s a e r a e v it i s n e s r o f n o it a l u c l a c e v i s n e t n i g n i o d y b s n o it a r e p
o rthe
t c e t e d o t s a w r e p a p s i h t n i s t n e m ir e p x e e h t f o e v it c e j b o e h T . e g a m i e m a rf e l o h w
d e w o h s st n e m ir e p x e e v is n e h e r p m o C . d n u o r g k c a b c i m a n y d h ti w o e d i v e h t n i s t c e j b o
t n a c if i n g i s d n a y c a r u c c a h g i h d e v e i h c a s a e r a e v it i s n e s e h t n o d e s a b d o h t e m e h t t a h t
m r o fr e
p ance.
K R O W S U O I V E R P
n o it c a rt x e e r u t a e f l a n o it i d a rt g n i n i b m o c t a h t n w o h s e v a h s t n e m ir e p x e y n a M
s r o t a r e p o n o it c e t e d r e n r o c e h t e k il ( s d o h t e
m [6,7] )and machine l earning method s d l e if e h t n i l l e w n o it a c if i s s a l c d n a n o it c e t e d t c e j b o f o m e l b o r p e h t e v l o s n a
c fo
g n is s e c o r p e g a m
i 8[ -10] .Besides ,cu rren tevidence suggests t hat t he deep l earning e g a m i f o d l e if e h t n i s g n i e b n a m u h e t a m i x o r p p a f o y ti li b a e h t s a h m h ti r o g l a
n o it c e t e d t c e j b o d n a n o it a c if i s s a l
c [11,12] .Whenal loft he rfames i nt hevideo are e
s s e c o r
p d i n t he same way, t he appilcaiton so fdeep network i n i mage processing t u o h ti W . s k s a t g n is s e c o r p o e d i v g n i v l o s r o f s m h ti r o g l a o t d e tr e v n o c y lt c e ri d e b n a c
n i n o it a t n e m g e s d n a n o it i n g o c e r t c e j b o f o k s a t e h t , d e e p s d n a t s o c e h t g n ir e d i s n o c
g n i s s e c o r p o e d i
v canbes olvedwel lbyi mprovingt hedeepnetworkalgortihms( ilke N
N
C [13])i ni mageprocessing[14,15] .However ,ast her equriementsf ors peedand s a d e n g i s e d y ll a i c e p s n e e b e v a h s l e d o m e r o m , d e v o r p m i y ll a u d a r g e v a h y c a r u c c a
d n
. 1 e r u g i
F Themethod lfowchatr.
d n e e h
T - ot -end networkmodel i scon isdered ast hekeypoint t o i mprovingt he r e t u p m o c f o k s a t n o it i n g o c e r t c e j b o e h t n I . g n i n o it is o p d n a n o it i n g o c e r f o d e e p s
g e r f o t h g u o h t e h t s n o d n a b a l e d o m O L O Y e h t , n o is i
v iona lpre-processingand rtuly
d n e e h t f o n o it a c il p p a e h t s e z il a e
r - ot -end network model [18,19] .Now, t he t arge t s a h c u s e m it l a e r n i d e k c a rt d n a d e if it n e d i e b n a c s k s a t g n is s e c o r p o e d i v n i t c e j b o
l e d o m D S S e h t h g u o r h
t [20] .
e n o f o y p o rt n e n o it a m r o f n i e h
T image i sactually the expected value o fal l n i y p o rt n e n o it a m r o f n i f o e g n a h c e h t , e r o f e r e h T . e g a m i s i h t n i d e v a s n o it a m r o f n i
s i n i a g n o it a m r o f n i si h T . n i a g n o it a m r o f n i f o m r o f l a i c e p s e n o s i s e m a rf s u o u n it n o c
r o g l a e e rt n o i si c e d n i d e s u n e tf
o tihm sto selec tcharacte irsitcs 1[2 ] .In fact ,the n
s i s e e rt n o i si c e d n o d e s a b d e s o p o r p m h ti r o g l a t s e r o f m o d n a
r ow tsli lpopula rin
s d l e if y n a
m 2[2 ] .Thesework sprovet hatt hei nformaitont heoryi susefulf o rifnding .s
e s s a l c t n e r e ff i d f o s c it s ir e t c a r a h c e v it c e ff e e h t
D O H T E M
a n i k s a t n o it c e t e d t c e j b o e h t e v e i h c a o t s a w r e p a p s i h t n i d e s o p o r p d o h t e m e h T
e r o m y ll a u s u s i t n e m n o ri v n e x e l p m o c a n i g n is s e c o r p o e d i V . t n e m n o ri v n e x e l p m o c
n o it a m r o f n i f o s i s a b e h t n o r e p a p s i h t n i d e s o p o r p s a w d o h t e m w e n a , s u h T . tl u c if fi d
theory . In thi s method , the informaiton enrtopy wa s uitilzed to quantfiy the e t a c i d n i ll e w d l u o c t l u s e r y fi t n a u q e h T . a e r a l a c o l e h t f o s s e c o r p e g n a h c n o it a m r o f n i
e h t , 1 e r u g i F n i n w o h s s A . e s i o n e h t d n a t c e j b o e h t n e e w t e b e r u t a n t n e r e ff i d e h t
e h t f o s u c o
f methodwast heexrtacitonofs ensiitveareasi nt hevideo rfame,t hent he e v it i s n e s y fi s s a l c o t n o it a l u c l a c y p o rt n e n o it a m r o f n i y b d e t c a rt x e s a w x ir t a m e r u t a e f
.s a e r a
e v it c e ff
E Informa itonM pa
e l b a u l a v e h t s t n e s e r p e r n o it a m r o f n i e v it c e ff e e h
T informaiton used fo r
y ti li b a b o r p r e t a e r g a s i e r e h T . o e d i v a f o e m a rf e h t n i s t c e j b o d n u o r g e r o f g n i y fi t n e d i
. e g a m i e h t n i d e l b m e s s a s i n o it a m r o f n i e v it c e ff e e r e h w a e r a e h t n i s t e g r a t g n i v a h f o
s o p m o c s i t e s a e r a e t a d i d n a c e h t ,l e d o m h c r a e s e v it c e l e s e h t n
I ed of l oca lregion s
n o it a t n e m g e s e g a m i r e tf a d e g r e m e r a t a h
n e tf o s a e r a e t a d i d n a c f o g n i s s e c o r p g n it c a rt x e e h t g n ir u d t n a tr o p m i e r a t a h t s e g d e
rr a H e h t e c n i S . n o it a m r o f n i e v it c e ff e t n e s e r p e
r i scorne rdetecitonalgoirt 3hm[2 ]can , e g a m i e h t n i s n o i g e r r e n r o c e h t d n a , s n o i g e r e g d e e h t ,s n o i g e r t a lf e h t h s i u g n it s i d
. n o it a m r o f n i e v it c e ff e f o d o h t e m n o it c a rt x e e h t s a d e s u e b n a c m h ti r o g l a s i h t
e h t f o e u l a v e s n o p s e r e h t n i a t b o n a c m h ti r o g l a n o it c e t e d r e n r o c s ir r a H e h T
e n r o
c rinformaiton through the rtansformaiton o fthe corne rresponse funciton . n
o n e h t t a h t e m u s s
A - lfa tregion i n t he video rfame i st he area containinge ffecitve si p a m n o it a m r o f n i e v it c e ff e e h t f o a l u m r o f n o it a m r o f s n a rt e h t o s , n o it a m r o f n i
Iinfo� 𝑓(x,y)� �255, |𝑑 |𝑠𝑡 � �𝛼∙M (ax |𝑑𝑠𝑡|)� 0, |𝑑 |𝑠𝑡 � �𝛼∙M (ax |𝑑𝑠𝑡|)� e
r e h
w 𝑑𝑠𝑡represent sthe corne rdeteciton resul to fthe video rfame .𝛼 itme so fthe t a lf e h t e d i v i d o t d l o h s e r h t e h t s i t l u s e r n o it c e t e d r e n r o c e h t f o e u l a v m u m i x a m
n o n e h t d n a n o i g e
r -lfa tregion , .ie. ,the ine ffecitve informaiton region and the d e n i a t b o e b n a c p a m n o it a m r o f n i e v it c e ff e e h t , y ll a n i F . n o i g e r n o it a m r o f n i e v it c e ff e
. g n i s s e c o r p l a c i g o l o h p r o m e l p m i s d n a g n ir e tl if n a i s s u a G y b
e v it is n e
S Ar Eea xtraciton
s n i a t n o c n e tf o d n u o r g k c a b c i m a n y d e h
T complex informaiton .So ,the video d n u o r g k c a b e h t g n i s u y b s s e c o r p o t tl u c if fi d y ll a r e n e g s i d n u o r g k c a b c i m a n y d h ti w
, y ti x e l p m o c w o l y b d e z ir e t c a r a h c s i d o h t e m e c n e r e ff i d e m a rf e h T . d o h t e m e c n e r e ff i d
d e h t f o y ti li b a e v it p a d a g n o rt s d n a , d e e p s g n i n n u r t s a
f ynamic envrionment .Some
d n u o r g e r o f e h t r o f n e k a t si m e b s e m it e m o s n a c d n u o r g k c a b c i m a n y d e h t n i e s i o n
. d o h t e m e c n e r e ff i d e m a rf e h t f o g n i s s e c o r p e h t g n ir u d t c e j b o
e m a rf o e d i v l a n i g ir o e h t n a h t r e h t a r p a m n o it a m r o f n i e v it c e ff e e h t o t g n i d r o c c A
s e c o r p e h t s
a sing uni,t t he rfame di fference method can obtain bette rresulst .The n o it a m r o f n i e v it c e ff e f o s i s a b e h t n o e t a l u c l a c o t s a w r e p a p s i h t n i d e s u d o h t e m
s i a l u m r o f n o it a l u c l a c e h T . s e m a rf e v it u c e s n o c e e r h t f o s p a m
Dn(x,y)� [𝑓n(x,y)� 𝑓n+1(x,y)∧𝑓n(x,y)]∨�𝑓n(x,y)� 𝑓n(x,y)∧𝑓n−1(x,y)� e
r e h
w 𝑓𝑛(𝑥,𝑦)represenst t heeffecitvei nformaitonmapoft hent'hvideo rfame .The ∨operaiton i n t hef ormula calculatest hemean valueoft hecorresponding pixelsi n
e h T . s p a m n o it a m r o f n i e v it c e ff e o w
t ∧ operaiton in the formula reserve s the d
n o p s e rr o
c ing pixe lvalue o fthe e ffecitve informaiton map o fnt'h video rfame . r
o f d e ri u q e r s i g n i s s e c o r p d l o h s e r h
T Dn(x,y) a tfe rthe difference operaiton .The e
u l a v d l o h s e r h
t 𝑇𝑂𝑡𝑠𝑢 i sobtained by t he Otsu [24 ]method automaitcally .Then, t he
e u l a v d l o h s e r h t l a m it p o e h t t e g o t s is a b s i h t n o d e d d a s i n o it a u t c u lf t h g il f o e c n e u lf n i
𝑇𝑜ptimal .Theopitmalt hresholdcalculaitonf ormula si
LDiff� N1
A�x�,y�∈A�|𝑓n+1(x,y)� 𝑓n(x,y)|� |𝑓n(x,y)� 𝑓n−1(x,y)|�/2
e r e h
w λ represent s the in lfuence facto r o f ilgh t lfuctuaiton in the curren t y ll a n if e b n a c e g a m i e c n e r e ff i d e h t , g n is s e c o r p d l o h s e r h t e h t h g u o r h T . t n e m n o ri v n e
. d e n i a t b o
y n a m o t n i d e d i v i d s i g n i s s e c o r p d l o h s e r h t r e tf a d e n i a t b o e g a m i e c n e r e ff i d e h T
l l a m
s regions .These region shave the same isze and are non-ove lrapping .The e c n e rr u c c o e h t s t n e s e r p e r n o i g e r h c a e n i s l e x i p n o it a m r o f n i e v it c e ff e f o r e b m u n
d e g d u j s a w n o i g e r e h t t a h t d e m u s s a r e p a p s i h T . t c e j b o d n u o r g e r o f e h t f o y ti li b is s o p
a a e r a e v it is n e s a s
a sl onga sti soccurrencepos isblitiywa sgreatert hanzero.
e v it is n e
S Ar Sea creening
m o rf s a e r a t e g r a t l a e r t c e l e s o t w o h s a w r e p a p s i h t n i d o h t e m e h t f o y e k r e h t o n A
n o it a c o l e h t , s d n u o r g k c a b x e l p m o c h ti w s o e d i v n I . s a e r a e v it i s n e s e h t f o l l a
e h t f o n o it a c if i s s a l c e h t n a h t t n a tr o p m i e r o m s i t c e j b o d n u o r g e r o f e h t f o n o it i n g o c e r
o t y p o rt n e n o it a m r o f n i s e s u t a h t d o h t e m a d e s o p o r p r e p a p s i h T . t c e j b o d n u o r g e r o f
e r u t a e f l a n o i s n e m i d N n A . a e r a e h t f o e g n a h c n o it a m r o f n i f o s s e c o r p e h t y fi t n a u q
c r o t c e
v an beobtainedby calculaitngt he i nformaitonenrtopyof t he l oca larea so f o e d i v e h t f o s a e r a l a c o l e h t ,r e v e w o H . s e m a rf N e v it u c e s n o c n i n o it a c o l e m a s e h t
e h t f o n o it a l u c l a c e h t e r o f e b s m h ti r o g l a f o s d n i k M y b d e s s e c o r p e r p t s ri f e r a e m a rf
.r o t c e v e r u t a e
f Thus ,oneareai nt hevideo rfamecanbe ifnallyr epresentedbyaM× g n i s s e c o r p e g a m i e h t r o f s n o it p o y n a m e r a e r e h T . x ir t a m e r u t a e f l a n o i s n e m i d N
s i h t n i d e s u s m h ti r o g l a g n i s s e c o r p e r p o w T . n o it a r e p o g n i s s e c o r p e r p e h t n i m h ti r o g l a
r g e g a m i e h t e r e w r e p a
p ayalgortihm and t he i magegradien talgortihm .Duirngt he a t a d e l p m a s e h t s a d e s u s i x ir t a m e r u t a e f e n o , l e d o m g n i n r a e l e n i h c a m e h t f o g n i n i a rt
y r a n i b d e s i v r e p u s a g n i n i a rt r o f d e s u e r a s e l p m a s e s e h T . a e r a e v it is n e s e n o f o
.l e d o m n o it a c if i s s a l c
t e g r a
T Objec tLoca itng
. e m a rf o e d i v e h t n i s a e r a t e g r a t f o s i s a b e h t n o d e t a r b il a c s i t c e j b o t e g r a t e h T
e h t ,s n o i g e r e l p it l u m o t n i e g a m i e l o h w e h t d e d i v i d s a h n o it a r e p o s u o i v e r p e h t e c n i S
f o e c n e i n e v n o c e h t r o f d e z i s e r s i s a e r a t e g r a t e h t ll a s n i a t n o c t a h t e g a m i g n it l u s e r
q e s b u
s uen tprocessing .The adju tsmen trule o fimage size i stha teach targe tarea s i s y l a n a l a c i g o l o h p r o m e h t h g u o r h T . e g a m i d e t s u j d a e h t n i l e x i p e n o o t s d n o p s e rr o c
a o t n i d e g r e m e r a t c e j b o e m a s e h t o t g n o l e b t a h t s a e r a t e g r a t , e g a m i d e ts u j d a e h t f o
t e g r a t e g r a
l block .A tfe rthe image i sadjusted back to ti spreviou ssize ,the fou r . e l g n a t c e r e t e l p m o c a m r o f o t d e z il it u e b n a c k c o l b t e g r a t r a l u g e rr i s i h t f o s e ir a d n u o b
t e g r a t e h t f o s tl u s e r n o it a r b il a c e h t s a d e s u e b n a c s e x o b r a l u g n a t c e r e s e h t , y ll a n i F
n i s t c e j b
. 2 e r u g i
F Theexpeirmenta llfowchar to fmethod.
S T N E M I R E P X E
a m o rf s i r e p a p s i h t n i a t a d l a t n e m ir e p x e e h
T videodataseti nCDne t2014[ 25] . e h T . d n u o r g k c a b c i m a n y d h ti w o e d i v e h t s a w r e p a p s i h t n i d e s u t e s t s e t n i a m e h T
n i d e s o p o r p d o h t e m e h t f o t r a h c w o lf l a t n e m ir e p x
e thi spape ri sshowni n Figure2 .
e h t f o d l o h s e r h t e h t , p a m n o it a m r o f n i e v it c e ff e n a f o s s e c o r p m r o f s n a rt e h t g n ir u D
s a w o e d i v e h t f o t n e m n o ri v n e t o h s e h t fI . 1 0 . 0 s a w m h ti r o g l a n o it c e t e d r e n r o c s ir r a H
v t o
n erycomplex ,exrteme ,o runcommon,t hent hei n lfuenceoft hi sparamete rwa s d e v o r p s t n e m ir e p x e e h t ,s a e r a e v it is n e s f o g n i n e e r c s d n a n o it c a rt x e e h t g n ir u D . e lt ti l
a e r a e v it i s n e s e h t r e tf A . 1 1 × 1 1 s a w a e r a e v it i s n e s a f o e z i s l e x i p l a m it p o e h t t a h t
t e d s a
w ermined,t hes amel ocaitonareao feigh tconsecuitve rfame sweres electeda s a e r a e v it i s n e s h c a e , n e h T . k r o w n o it a c if i s s a l c t n e u q e s b u s r o f e c r u o s e l p m a s a t a d e h t
. x ir t a m e r u t a e f l a n o is n e m i d 8 × 2 a o t n i d e m r o f s n a rt s a w
n o it a c if i s s a l c y r a n i b d e si v r e p u s e h
T mode lusedi nt heexpe irment swast heSVC t n e m ir e p x e y r a m ir p e h t s a d e t c e l e s e r e w o e d i v f o s e ir e s e v it a t n e s e r p e r e e r h T . l e d o m
e h t d e n i a t n o c e n o , n o it a u t c u lf r e t a w f o d n u o r g k c a b c i m a n y d e h t d e n i a t n o c e n o : a t a d
o e h t d n a , g n i k a h s s e v a e l f o d n u o r g k c a b c i m a n y
d the ronecontainedt heheavy ijtte r e
l b a T n i n w o h s s A . a r e m a c e h t f
o I,t he expeirmental r esutl sproved t hatt heobjec t t c e ff e l a e d i e m a s e h t e v e i h c a d l u o c s a e r a e v it i s n e s e h t n o d e s a b k r o w e m a rf n o it c e t e d
. s e n e c s t n e r e ff i d n i
E L B A
T I .EXPERIMENTALRESULTS.
y r o g e t a C o e d i
V BDoaytnsa m ic B a c k gHrioguhnwday CameraJtiter c if f a r T y
c a r u c c
A 85.29% 85.61% 88.05%
) s p f ( d e e p
. 3 e r u g i
F Thet etsr esulst.
n i d e n i a rt e r e w s a e r a e v it i s n e s e h t n o d e s a b s l e d o m n o it a c if i s s a l c t n e r e ff i d e h T
t s e t e h T . e n e c s g n i d n o p s e rr o c e h t n i d e ts e t e r e w s l e d o m e s e h t , n e h T . s e n e c s t n e r e ff i d
3 e r u g i F n i n w o h s e r a s tl u s e
r .In t he dynamic scene where t he conten twa sa boat , i
x o r p p
a mately1000 rfamesi nt hef ris thal foft hevideowereusedi nt he rtainingo f e w o e d i v e h t f o f l a h d n o c e s e h t n i s e m a rf 0 0 0 2 d n u o r a d n a , l e d o m n o it c e t e d e h
t re
3 e r u g i F n I .t s e t e h t n i d e s
u ,t hef ris tilnei st he processingr esul tobtained byu isng l
a v e h
t idaitonse toft he video ,andt he second ilnei st heprocessingr esul tobtained o e d i v e h t t a h t d e v o r p t n e m ir e p x e e v o b a e h T . o e d i v e h t f o t e s t s e t e h t g n i s u y b
n i y ti li b a n o it a z il a r e n e g g n o rt s d a h s a e r a e v it i s n e s e h t n o d e s a b k r o w e m a rf n o it c e t e d
c s e m a s e h
t e ne.
S N O I S U L C N O C
d n e e h t m o rf t n e r e ff i d s i h c i h w , y a w w e n a s e d i v o r p r e p a p s i h t f o d o h t e m e h
T
-o
t -enddeepnetwork,t os olvet hevideoproces isngt askatl owco ts .Themethodcan k
c a b c i m a n y d e h t n i n o it c e t e d n o it a c o l t e g r a t r o f k r o w e m a rf a s a d e t a e rt e
b groundt o
n o n f o r e b m u n e g r a l A . e l b i s s o p s a s t s o c h c u m s a e v a
s -candidatearea savoidedt obe
f o t o l a , e m it e m a s e h t t A . o e d i v e h t f o n o it a m r o f n i t x e t n o c e h t g n i s u y b d e r e d i s n o c
. l e d o m g n i n r a e l e n i h c a m t h g i e w t h g il a g n i s u y b d e v a s e b n a c s t s o c e r a w d r a h
l
Athought healgortihmhads rtonggenerailzaitonablitiyi nt hes ames cene ,di fferen t c i m a n y d t n e r e ff i d h ti w s o e d i v r o f y l e v it c e p s e r d e n i a rt e b o t d e d e e n s l e d o m
c i m a n y d t n e r e ff i d n i s c it s ir e t c a r a h c t n e r e ff i d d a h e s i o n e h t s a s d n u o r g k c a b
.s d n u o r g k c a b
S E C N E R E F E R
.
1 Huang J ,Rathod V ,Sun C ,e tal .Speed/accuracy rtade-off sfo rmodern convoluitonal objec t s
r o t c e t e
.
2 Ujiilng s JR ,SandeKE ,Gever sT ,e tal .SelecitveSearchf o rObjec tRecogniiton.I nternaitona l 4
5 1 :) 2 ( 4 0 1 , 3 1 0 2 , n o is i V r e t u p m o C f o l a n r u o
J -171 .
.
3 ZhuX ,DaiJ ,YuanL ,e tal .Toward sHighPerformanceVideoObjec tDeteciton .2017 . .
4 KangD ,EmmonsJ ,AbuzaidF ,e tal .NoScope :OpitmizingNeura lNetworkQueire sove rVideo e
l a c S t
a .Proceeding soft heVldbEndowment ,2017 ,10(11:)1586-1597 . .
5 ZhuX ,XiongY ,Da iJ ,e tal .DeepFeatureFlowfo rVideoRecogniiton.IEEEConferenceon 1
4 1 4 : 7 1 0 2 , E E E I . n o it i n g o c e R n r e tt a P d n a n o is i V r e t u p m o
C -4150 .
.
6 Lowe D G .Objec tRecogniiton rfom Loca lScale-Invairan tFeature.s iccv .IEEE Compute r .
0 5 1 1 : 9 9 9 1 , y t e i c o S .
7 Dala lN ,Tirgg sB .Hi tsogram so fOirentedGradienstf o rHumanDeteciton.Compute rViisonand , E E E I . n o e c n e r e f n o C y t e i c o S r e t u p m o C E E E I . 5 0 0 2 R P V C . 5 0 0 2 , n o it i n g o c e R n r e tt a P
6 8 8 : 5 0 0
2 -893 . .
8 Zhu Q,Yeh M C ,Cheng K T ,e tal .Fas thuman deteciton uisng acascadeo fhi tsogram so f .s
t n e i d a r g d e t n e ir
o Compute rViison and Pattern Recogniiton ,2006 IEEE Compute rSociety 1
9 4 1 : 6 0 0 2 , E E E I . n o e c n e r e f n o
C -1498 .
.
9 VerschaeR ,Ruiz- lD -e Sola rJ ,CorreaM .Auniifedl earning rfameworkf o robjec tdetecitonand a
c d e ts e n g n is u n o it a c if is s a l
c scade so fboo tsedclasisifers .MachineVi ison&Appilcaitons ,2008 , 5
8 :) 2 ( 9
1 -103 . .
0
1 Felzenszwalb P F ,Grishick R B ,Mcalletse rD ,e tal .Objec tdeteciton wtih dsicirminaitvely n
i a
rt edpatr-basedmodesl .Computer ,2014 ,47(2 :)6- .7 .
1
1 Russakovsky O ,Deng J ,Su H ,e tal .ImageNe tLarge Scale Vsiua lRecogniiton Challenge . 1
1 2 :) 3 ( 5 1 1 , 4 1 0 2 , n o is i V r e t u p m o C f o l a n r u o J l a n o it a n r e t n
I -252 .
. 2
1 DonahueJ ,Hendirck sLA ,GuadarramaS ,e tal .Long- et rmr ecurren tconvoluitona lnetworksf o r l
a u si
v recogniiton and descirpiton. AB initto calculaiton o fthe srtucture sand properite so f s
e l u c e l o
m .Eslevier ,2015:85- .9 1 .
3
1 KirzhevskyA ,SustkeverI ,HintonGE.I mageNe tclasisifcaitonwtihdeepconvoluitona lneura l .s
k r o w t e
n Internaitona l Conference on Neura l Informaiton Procesisng Sytsems . Curran 7
9 0 1 : 2 1 0 2 . c n I s e t a i c o s s
A -1105 .
. 4
1 Grishick R ,Donahue J ,Darrel lT ,e tal .Region-Based Convoluitona lNetwork sfo rAccurate a
t n e m g e S d n a n o it c e t e D t c e j b
O iton .IEEE Transaciton son Pattern Analy is s& Machine .
2 4 1 :) 1 ( 8 3 , 6 1 0 2 , e c n e g il l e t n I . 5
1 HeK ,Zhang X ,Ren S ,e tal .Spaita lPyramid Pooilng in Deep Convoluitona lNetwork sfo r n
o it i n g o c e R l a u si
V .IEEE Transaciton son Pattern Analy is s& Machine Intelilgence ,2015 , 9
1 :) 9 ( 7
3 0 - .41 6 .
6
1 GrishickR .Fas tR-CNN .Compute rScience ,2015 . .
7
1 Ren S ,He K ,Grishick R ,e tal .Fatse rR-CNN :Toward sReal-Time Objec tDeteciton wtih s
k r o w t e N l a s o p o r P n o i g e
R .IEEE Transaciton son Pattern Analy is s& Machine Intelilgence , 7
3 1 1 :) 6 ( 9 3 , 5 1 0
2 -1149 .
. 8
1 Redmon J ,Divvala S ,Grishick R ,e tal .You Only Look Once :Uniifed ,Real-Time Objec t n
o it c e t e
D .2015:779-788 . .
9
1 RedmonJ ,Farhad iA .YOLO9000 :Better ,Fatser ,Srtonger .2016 . .
0
2 LiuW ,AnguelovD ,ErhanD ,e tal .SSD :SingleSho tMulitBoxDetector .2015:21- 73 . .
1
2 Quinlan JR .C4.5 :programsf o rmachinel earning .1993 ,1. .
2
2 BreimanL .RandomForesst .MachineLearning ,2001 ,45(1:)5- .3 2 .
3
2 Harir sC .Acombinedcorne rand edgedetector .ProcAlvey Vi ison Conf ,1988 ,1988(3:)147 .
1 5 1 . 4
2 Ostu N .A Threshold Seleciton Method rfomGray-Leve lHi tsograms .IEEE Transaciton son 2
6 :) 1 ( 9 , 7 0 0 2 , s c it e n r e b y C & n a M s m e ts y
S - .6 6
. 5
2 Y .Wang ,P.-M .Jodoin ,F .Poirkil ,J .Konrad ,Y .Benezeth ,and P .Ishwar ,CDnet 2014 :An n o it c e t e D e g n a h C n o p o h s k r o W E E E I . c o r P n i ,t e s a t a D k r a m h c n e B n o it c e t e D e g n a h C d e d n a p x E
W D C