久久人人爽爽爽人久久久-免费高清a级毛片在线播放-国产高清自产拍av在线-中文字幕亚洲综合小综合-无码中文字幕色专区

學術(shù)咨詢

讓論文發(fā)表更省時、省事、省心

基于光流引導特征的視頻行人再識別方法

時間:2020年04月09日 分類:科學技術(shù)論文 次數(shù):

摘要:視頻行人再識別的主要任務(wù)是基于視頻序列判斷由不同攝像機捕獲的行人是否為同一身份。當前的視頻行人再識別方法大都需要提前手動提取光流圖來計算行人的運動特征。為了簡化網(wǎng)絡(luò)結(jié)構(gòu),減少計算量,提出了一種基于光流引導特征的視頻行人再識別方法。首先

  摘要:視頻行人再識別的主要任務(wù)是基于視頻序列判斷由不同攝像機捕獲的行人是否為同一身份。當前的視頻行人再識別方法大都需要提前手動提取光流圖來計算行人的運動特征。為了簡化網(wǎng)絡(luò)結(jié)構(gòu),減少計算量,提出了一種基于光流引導特征的視頻行人再識別方法。首先使用卷積神經(jīng)網(wǎng)絡(luò)提取行人圖像的深度特征,并根據(jù)深度特征圖計算光流引導特征來描述行人運動信息;然后聯(lián)合行人空間外觀特征與時間運動特征,獲得視頻級的行人特征描述矢量;最后計算特征描述矢量之間的歐式距離,判定兩段圖像序列中的行人是否為同一身份。在數(shù)據(jù)集iLIDS-VID、PRID2011上進行實驗,結(jié)果表明該方法具有較高的識別率。

  關(guān)鍵詞:深度學習;行人再識別;光流引導特征;卷積神經(jīng)網(wǎng)絡(luò);循環(huán)神經(jīng)網(wǎng)絡(luò)

行人識別系統(tǒng)

  0引言

  行人再識別的任務(wù)是判斷兩個或者多個無重疊視域的攝像頭捕獲的行人是否為同一身份,這一技術(shù)被廣泛應(yīng)用于刑事偵查、行人檢索等任務(wù)中,成為當前的研究熱點。目前的行人再識別方法主要包括基于圖像與基于視頻兩大類,基于圖像的行人再識別方法采用從監(jiān)控視頻中截取的行人圖像作為數(shù)據(jù)集來訓練網(wǎng)絡(luò),主要通過行人的空間外觀信息來判定行人身份[1,2]。

  相對于單幅圖像,連續(xù)的視頻序列不僅包含了行人的空間外觀信息,還包含了行人的時間運動信息,聯(lián)合空間與時間信息能夠獲得更加精準的行人特征描述,從而提高行人再識別的準確率[3,4]。MclaughlinN等[5]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)提出了CNN-RNN結(jié)構(gòu),輸入圖像首先經(jīng)過CNN提取深度特征,然后利用RNN融合多個時間步的信息,獲得視頻級的行人特征描述矢量。ChenL等[6]在CNN-RNN的基礎(chǔ)上提出了DeepCNN-RNN,通過連接CNN與RNN的輸出,形成行人序列的時空特征描述,該方法相對于基礎(chǔ)CNN-RNN,在一定程度上提高了行人再識別的準確率。XuS等[7]同樣對CNNRNN結(jié)構(gòu)做出改進,設(shè)計了注意力時空池化網(wǎng)絡(luò)(AttentiveSpatial-TemporalPoolingNetworks,ASTPN),提取出更具有辨識力的行人特征。劉一敏等[8]在文獻[7]的基礎(chǔ)上,根據(jù)行人步伐大小、運動快慢生成幀間信息,并在網(wǎng)絡(luò)訓練過程中對輸入序列添加自適應(yīng)幀率尺度變化,提高了網(wǎng)絡(luò)的性能。

  這些方法大都使用手動方式提取圖像序列的光流圖,費時費力且存儲光流圖會占據(jù)大量的磁盤空間。LiuH等[9]提出了一種累積運動上下文網(wǎng)絡(luò)(AccumulativeMotionContext,AMOC),利用光流提取網(wǎng)絡(luò)代替手動方式提取光流圖,再結(jié)合CNN-RNN結(jié)構(gòu)實現(xiàn)視頻行人再識別,這種方法進一步提升了行人再識別的準確率,但由于光流提取網(wǎng)絡(luò)結(jié)構(gòu)復雜,參數(shù)數(shù)量較大,極大地影響了網(wǎng)絡(luò)訓練的效率。光流引導特征[10](OpticalFlowGuidedFeature,OFF)是將光流法應(yīng)用于CNN提取的特征圖上得出的行人運動特征描述。本文將OFF提取結(jié)構(gòu)與CNN-RNN的視頻行人再識別網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,應(yīng)用于視頻行人再識別。該方法利用CNN提取行人空間外觀特征,OFF表征行人運動特征,聯(lián)合空間與時間特征生成最終的行人特征描述。在多個數(shù)據(jù)集上進行實驗,結(jié)果表明該方法在有效精簡網(wǎng)絡(luò)結(jié)構(gòu)的同時,能夠保證較高的識別率。

  1光流引導特征

  光流法是利用圖像序列中相鄰兩幀的像素變化來找到上一幀與當前幀之間存在的對應(yīng)關(guān)系,從而計算物體運動信息的一種方法。光流約束方程是光流法中重要的理論基礎(chǔ)之一。假設(shè)物體同一位置的像素點在相鄰幀之間的亮度不會改變,且位移很小,則光流約束方程為I(x;y;t)=I(x+Δx;y+Δy;t+Δt),(1)式中:I(x;y;t)為第t幀上位置為(x,y)的點的光強度;Δt為時間間隔;Δx和Δy分別為像素點在x軸和y軸上的空間位移。將RGB圖像輸入CNN,經(jīng)過卷積操作獲得深度特征圖。將光流約束方程運用到該特征圖,可得f(I;ω)(x;y;t)=f(I;ω)(x+Δx;y+Δy;t+Δt),(2)式中:f表示從圖像I中提取特征的映射函數(shù),這里指CNN;ω為映射函數(shù)中的參數(shù)。設(shè)p=(x;y;t),將式(2)泰勒級數(shù)展開,得到∂f(I;ω)(p)∂xΔx+∂f(I;ω)(p)∂yΔy+∂f(I;ω)(p)∂tΔt=0。

  (3)式(3)兩邊同時除以Δt,得∂f(I;ω)(p)∂xvx+∂f(I;ω)(p)∂yvy+∂f(I;ω)(p)∂t=0。(4)當f(I;ω)(p)=I(p)時,則f(I;ω)(p)僅表示p點處的像素值,(vx,vy)即為光流;當f(I;ω)(p)≠I(p)時,則(vx,vy)為特征流。由式(4)可以看出,有矢量F(I;ω)(p)=∂f(I;ω)∂xΔx,∂f(I;ω)∂yΔy,∂f(I;ω)∂tΔt與包含特征流的向量(vx,vy,1)正交,即F(I;ω)(p)會隨著特征流的變化而變化。因此,可以認為矢量F(I;ω)(p)由特征流引導,稱為光流引導特征。

  由于OFF特征F(I;ω)(p)與特征流(vx,vy)正交能夠很好地編碼時空信息,用其代替光流來描述行人的運動信息,在一定程度上保證了行人再識別的準確率。

  2整體框架設(shè)計

  基于OFF設(shè)計了視頻行人再識別深度學習網(wǎng)絡(luò)框架,主要分為特征提取子網(wǎng)絡(luò)和信息融合子網(wǎng)絡(luò)兩個部分。特征提取子網(wǎng)絡(luò)包括卷積層與OFF層,其中卷積層用來獲取圖像序列的空間外觀信息,OFF層用來獲取圖像序列的時間運動信息。信息融合子網(wǎng)絡(luò)包括時空信息融合、RNN和時間池化層三部分,主要用來融合圖像序列的時空信息,形成視頻級的行人特征描述矢量。網(wǎng)絡(luò)訓練過程采用多任務(wù)損失函數(shù):一是對比損失,通過計算行人特征描述矢量之間的歐氏距離,表征同一身份行人與不同身份行人的距離;二是身份損失,通過匹配特征描述矢量與行人身份標簽,優(yōu)化行人特征提取器。

  2.1特征提取子網(wǎng)絡(luò)

  特征提取子網(wǎng)絡(luò)以CNN為主干結(jié)構(gòu),輸入的多幀行人圖像首先經(jīng)過CNN提取深度特征圖,同時將網(wǎng)絡(luò)中間層獲得的特征圖作為OFF單元的輸入,用來提取行人運動特征,具體結(jié)構(gòu)如圖2所示。CNN的主干結(jié)構(gòu)包含3層,每一層都包含卷積層、tanh激活層、以及最大池化層三部分[6],用來提取深度特征圖,卷積層Conv-3的輸出即為行人空間外觀特征描述。其中卷積層Conv-1的卷積核大小為5×5×16,卷積步長為2。由于每個中間層對應(yīng)特征圖的尺寸都不相同,OFF層也包含多個不同尺寸的單元,分別對應(yīng)不同尺寸的特征圖。除第一個OFF單元的輸入為相鄰兩幀對應(yīng)中間層的特征圖之外,其他OFF單元的輸入均是相鄰兩幀同一尺寸的特征圖與上一個OFF單元的輸出,采用殘差塊連接每兩個OFF單元,最后一個OFF單元的輸出特征圖即為行人的運動特征描述。

  2.2信息融合子網(wǎng)絡(luò)

  信息融合子網(wǎng)絡(luò)包含3個部分,一是時空信息融合,采用級聯(lián)融合的方式,融合行人的空間外觀特征與時間運動特征;二是RNN,采用門控循環(huán)單元(GatedRecurrentUnit,GRU)[11]使不同時間步的行人時空信息相互流通;三是時間池化層,采用平均池化的方式匯總RNN中每一個時間步的輸出獲得視頻級的行人特征描述矢量。

  3實驗及結(jié)果分析

  3.1數(shù)據(jù)集

  1)iLIDS-VID[12]:iLIDS-VID數(shù)據(jù)集是由從機場到大廳的兩個非重疊攝像機視域中捕獲的行人創(chuàng)建的。數(shù)據(jù)集中有300個不同身份的行人,每個人有兩個攝像機視圖的一對圖像序列,總共600個圖像序列。圖像序列長度的平均數(shù)為73,范圍為23~192。該數(shù)據(jù)集中大量行人的服裝相似,視圖中的照明和視點變化較大,背景雜亂且遮擋問題嚴重,使得實現(xiàn)行人再識別具有很大的挑戰(zhàn)性。2)PRID-2011[13]:PRID-2011數(shù)據(jù)集包含來自兩個非重疊視域的攝像頭視圖的行人圖像序列,其中一個攝像頭捕獲385個行人,另一個攝像頭捕獲749個行人,兩個攝像頭之間共有200個人為同一身份。本文只選用具有相同身份的200個行人,共400個圖像序列進行評估。序列長度范圍為5~675幀,平均幀數(shù)為100。與iLIDS-VID數(shù)據(jù)集相比,PRID-2011數(shù)據(jù)集在不擁擠的室外場景中采集,背景相對簡單干凈,很少遮擋,實現(xiàn)行人再識別的難度相對較小。

  3.2評價標準

  當前常用的行人再識別評價指標為累積匹配特征曲線(CumulativeMatchCharacteristics,CMC),其中Rank-n表示準確率排名前n的匹配結(jié)果中包含正確匹配對象的概率。將數(shù)據(jù)集隨機分成訓練集和測試集。網(wǎng)絡(luò)訓練時,從訓練集中選取兩段16幀的視頻序列作為輸入;測試時,將測試集中兩個攝像機捕獲的行人視頻序列分別作為查詢集與圖集。重復實驗5次,并報告平均結(jié)果。

  4結(jié)論

  本文提出了基于OFF的視頻行人再識別方法。首先通過卷積層提取圖像序列的深度特征,然后利用OFF單元內(nèi)部的逐元素相減法與Sobel算子計算行人圖像的時空梯度。通過使用OFF描述行人運動信息可以避免手動提取光流圖,簡化了網(wǎng)絡(luò)結(jié)構(gòu),行人再識別準確率得到明顯提高。通過在多個數(shù)據(jù)集上進行實驗,證明了本文方法的可行性與有效性。

  參考文獻:

  [1]KalayehMM,BasaranE,GökmenM,etal。Humansemanticparsingforpersonre-identification[C]。ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,CVPR,SaltLakeCity,2018:1062-1071。[2]CaoZ,SimonT,WeiSE,etal。Realtimemulti-person2dposeestimationusingpartaffinityfields[C]。ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,CVPR,Hawaii,2017:7291-7299。

  圖像方向論文范文:計算機圖像處理與編程技術(shù)的具體應(yīng)用

  計算機圖像處理與編程技術(shù)在各行各業(yè)得到了廣泛應(yīng)用,信息處理效率和準確度都有一定的提升,比傳統(tǒng)檢驗技術(shù)價值更大,下面文章就是對對計算機圖像處理與編程技術(shù)在檢驗中的具體應(yīng)用策略加以探析,希望可以充分發(fā)揮計算機圖像處理與編程技術(shù)優(yōu)勢,全面強化檢驗效果,從而推進相關(guān)行業(yè)的蓬勃健康發(fā)展。