時間:2021年07月06日 分類:科學技術論文 次數:
摘要:針對實際環境噪聲下的手機來源識別問題,提出一種基于線性判別分析和時序卷積網絡的手機來源識別方法。首先,通過分析不同手機語音特征在實際環境噪聲下的分類性能,基于帶能量描述符、常數變換域和線性判別分析得到一種新的手機語音混合特征。然后以此混合特征為輸入,基于時序卷積網絡進行訓練和分類。最后,在10個品牌、47種手機型號、32,900個語音樣本的實際環境噪聲語音庫上的測試結果顯示,本文所提方法的平均識別準確率達到99.82%。此外,與經典的基于帶能量描述符和支持向量機的方法,以及基于常數變換域和卷積神經網絡的方法相比,平均識別準確率分別提高了0.44和0.54個百分點,平均召回率分別提高了0.45和0.55個百分點,平均精確率分別提高了0.41和0.57個百分點,平均F1分數分別提高了0.49和0.55個百分點。實驗結果表明,本文所提方法具有更優的綜合識別性能。
關鍵詞:手機來源識別;實際環境噪聲;混合特征;線性判別分析;時序卷積網絡
1.引言
隨著視頻、圖片、音頻等各種編輯軟件的普及以及操作的智能化,對多媒體數據進行編輯和修改顯得越來越輕而易舉。用戶可能對信息進行惡意剪切或篡改,在不尊重事實和他人的基礎上謀取私人利益,從而帶來潛在的不利因素和惡劣影響。為此,多媒體取證技術[1]旨在能夠鑒別多媒體數據是否經過編輯、篡改以及識別和驗證多媒體數據來源。與視頻和圖像相比,音頻取證隱蔽性更強,且更容易操作。
移動互聯網論文:中國智能手機的大變局時代
越來越多的人在交流、交易協商時會選擇使用語音聊天記錄或手機錄音取證方式固定曾經發生的客觀事實,以期在出現法律糾紛時作為證據進行使用。但是,手機語音是否可以作為有效證據被法庭采納的一個先決條件是需要確定其真偽,而對手機語音的來源設備識別是語音證據鑒真和形成完備證據鏈的一個根本前提,已成為近年來多媒體取證領域中的一個研究熱點[1]。
2.相關工作
近年來,手機來源識別研究取得了豐碩成果,從對語音信號處理對象的角度,可以分為整體語音和非語音部分兩大類。有觀點認為,利用語音信號的非語音部分可以降低計算復雜度,且能夠排除語音部分的干擾,從而挖掘手機設備的本質特征。在這方面,Hanilci和Kinnunen[2]采用信息論的方法提取非語音部分的特征,利用最大互信息訓練的高斯混合模型來表示特定設備的特征。
Aggarwal等[3]從噪聲估計樣本中提取梅爾頻率倒譜系數(MelFrequencyCepstralCoefficient,MFCC)。Qi等[4]從背景噪聲中提取語音特征,并對比分析了在不同深度學習分類器下的識別性能。Jin等[5]提取自噪聲的光譜形狀特征和光譜分布特征用于手機來源識別。裴安山等[6]將本底噪聲作為手機的指紋,提出了一種基于本底噪聲的手機來源識別方法。在他們的后續研究中[7],通過使用自適應端點檢測算法得到語音的靜音段,然后將靜音段的梅爾頻譜系數的均值作為分類特征。
Baldini等[8]在不同頻率下用非語音聲音刺激內置麥克風,利用手機內置麥克風的固有物理特性構建卷積神經網絡對智能手機進行識別和認證。上述針對非語音部分的研究可以有效降低計算開銷,但完全無視語音部分,可能會丟失語音部分包含的一些關鍵設備特征,從而影響識別效果。因此,主流的研究大都致力于從整體語音信號上提取特征。特別是最近,Luo等[9]提出了一種新的帶能量描述符(BandEnergyDescriptor,BED)特征,并使用支持向量機(SupportVectorMachine,SVM)進行設備識別。BED主要利用不同生產商在音頻采集管道上不盡相同,從而產生可用于音頻取證的微小差異。
Qin等[10]提出了一種常數變換域(ConstantQTransform,CQT)的語音特征,并使用卷積神經網絡(ConvolutionalNeuralNetworks,CNN)進行訓練。在更早期,Hanilci等[11]提取MFCC作為設備特征,并利用SVM作為分類器。緊接著,Hanilci和Ertas[12]提出MFCC、線性頻率倒譜系數、巴克頻率倒譜系數和線性預測倒譜系數四種不同的聲學特征,并采用倒譜平均歸一化、倒譜方差歸一化、倒譜均值和方差歸一化三種不同的歸一化技術分別處理。Zou等[13]利用高斯混合模型通用背景模型設計一種基于MFCC和功率歸一化倒譜系數的識別方法。裴安山等人[14]指出不同手機的語音頻譜特征是不同的,將語音的頻譜信息量、對數譜和相位譜特征串聯構成原始融合特征。
上述已有方法均是從整體語音信號上提取特征,從而可以充分挖掘語音信號中的關鍵設備信息,均在手機來源識別上取得了較好的識別效果,但計算開銷稍大。總的來說,雖然BED+SVM[9]和CQT+CN[10]等方法在手機來源識別上取得了不錯的效果,但是一個突出的問題是,現有研究大都基于理想而又安靜的實驗室環境,利用純凈語音或添加人工噪聲語音來進行測試分析,而對實際環境噪聲語音卻鮮有涉及。在音頻取證中,充當證據的手機語音信號通常產生于人們交流和交易協商的生活和工作環境,包含了各種自然環境背景噪聲。
特別的,自然環境背景噪聲復雜多變,在不同天氣、地點,背景噪聲信號對手機語音信號產生的影響也不同。有時候,強自然環境背景噪聲甚至可能會完全掩蓋設備本身的噪聲。在對這些手機語音進行特征提取時,如何降低自然環境背景噪聲對手機設備本身噪聲的干擾是一個難點問題。當自然環境背景噪聲較小或人工背景噪聲具有一定先驗知識時,傳統的方法,如MFCC、BED、CQT等都可以較好的提取出設備噪聲特征。
但當背景噪聲較大且較復雜的時候,傳統的特征提取方法不能有效抵抗背景噪聲的干擾,無法滿足司法領域的實際需求,必然導致識別準確率的下降。因此,如何在實際環境噪聲干擾下提取出設備關鍵特征,是我們需要解決的第一個難點問題。此外,SVM和CNN這些分類器沒有充分利用音頻信號的時序特征,在串行信號的處理上,例如在一個關鍵性質“記憶力”上很難充分發揮價值,因此,選取一個契合時序信號的分類器、充分挖掘語音時序特征是我們需要解決的第二個問題。
基于上述分析,為了滿足司法領域音頻證據的鑒真需求,提高實際環境噪聲下手機來源識別的準確率,本文首先利用線性判別分析(LinearDiscriminantAnalysis,LDA)[15]優化一個語音混合特征,并以此混合特征為輸入,基于時序卷積網絡(TemporalConvolutionalNetwork,TCN)[16]進行訓練和分類,提出一種基于LDA和TCN的手機來源識別方法,最后基于各種實際環境噪聲語音庫對所提方法進行了大量測試和驗證。
3.基于LDA和TCN的手機來源識別
3.1基于LDA的混合語音特征
提取語音信號的不同特征能從不同側面反應語音的不同信息,因此可以使用融合特征來更加全面的表達語音信號。本文在已有工作基礎上,通過大量測試和分析,選取并嘗試將BED和CQT這兩個特征結合起來,利用LDA[15]優化從混合特征中降維出LQBED(LDABasedCQTandBED),以獲得更全面的語音特征信息,從而在整體上提高特征的分辨力。
假設BED特征維數為,CQT的特征維數為,則組合后的特征維數為nm。雖然組合特征能更全面地反映語音特征,但特征值維數較大,其中可能包含很多對設備特征沒有貢獻或者貢獻較小的特征值,即存在一定相關性或冗余性,會帶來巨大的計算開銷。因此,我們需要對這個混合特征進行降維,去除其中的冗余信息。在機器學習中,LDA[15]是一種典型的模式識別和降維算法。
其基本思想是將高維模式樣本投影到最優判別向量空間中,以提取分類信息并壓縮特征空間的維數。投影后,保證樣本有最大的類間距離和最小的類內距離,使得同一類數據盡可能的緊湊,不同類的數據盡可能分散。LDA可以充分利用先驗知識,計算速度快。特別的,當數據滿足高斯分布時,LDA的降維效果非常顯著,而基于語音信號的手機來源識別主要是根據語音信號當中含有的設備元器件(主要是麥克風)自身噪聲的微小差異來進行識別。通常,電路各元器件自身噪聲和相互作用產生的影響主要就是高斯噪聲。因此,本文選擇LDA對混合特征進行降維提取出LQBED特征。
4.實驗結果與分析
4.1實際噪聲語音庫的建立
為了測試本文所提方法在自然環境噪聲下的魯棒性,我們首先構建了一個具有實際環境噪聲的語音數據庫。該語音數據庫由來自表所示的10個品牌、47種型號手機設備的MP3格式的音頻信號組成,采樣率為44100Hz或48000Hz,比特率為64kbps或128kbps。每種型號下的手機語音信號均收錄于不同性別的人在不同生活噪音環境下的語音(包括日常對話、電影對話、無線電廣播等)。
本文將每種型號收錄到的語音信號平均分割成秒,最終每種手機共收集700條語音片段,其中600條用于訓練,其余100條用于測試,從而構建了一個包含32,900個語音樣本的語音數據庫。其中,訓練庫有28,200條語音,測試庫包括4,700條語音。本文涉及到的相關實驗均是基于以上語音數據庫進行測試和分析。
4.2參數設置和評價指標
對于TCN,訓練周期是一個關鍵參數。本文經過大量的測試,發現當訓練周期達到30時TCN的精度和損失基本不變。因此,為了保證充分的學習,本文最終將訓練周期設定為30,網絡學習率設置為0.01,損失函數為CategoricalCrossentropy。其他的一些參數已在圖的網絡結構中給出。為了充分評估所提方法的性能,本文引入如下四種在機器學習中常用性能指標[6]:準確率(Accuracy):是使用的最普遍的,也是最直觀的性能指標,表示預測正確的樣本占所有樣本的比例,表示了一個分類器的區分能力。召回率(Recall):是指在所有實際為正例的樣本中,被預測為正例的樣本比例。精確率(Precision):是指在所有被分類為正例的樣本中,真正是正例的比例。F1分數(F1score):為精確率和召回率的調和平均數。
5.結束語
為解決司法領域中實際環境噪聲下的手機來源識別問題,本文首先提取含有實際環境噪聲的語音混合特征,然后基于LDA對混合特征進行降維得到LQBED特征,最后選擇并設計TCN進一步學習語音深度特征并進行分類,提出一種基于LDA和TCN的實際環境噪聲下的手機來源識別方法LQBED+TCN。根據10個品牌、47種型號的手機設備,本文構建了一個包含32,900個語音樣本的實際環境噪聲下的語音數據庫。
在該語音庫上的測試結果顯示,本文所提LQBED+TCN對實際環境噪聲具有較好的綜合識別性能,平均識別率達到了99.82%,且在召回率、精確率和F1分數值上也優于已有方法,進一步降低了錯判率,對司法領域中語音證據的鑒真具有一定的實際價值。但是,本文工作只是針對司法領域實際需求,利用TCN在手機來源識別上的一個從初步嘗試,仍有許多工作需要進一步深入研究。
首先,由于實驗條件的限制,本文收錄的手機型號覆蓋范圍還不夠廣泛,因此,語音庫仍需要進一步的擴充;其次,本文創建的語音數據庫均是MP3格式,還需要考慮其它的手機語音格式;而且,還需要考慮語音信號受到信號處理攻擊下的魯棒性;最后,還將進一步考慮改善和挖掘TCN的優勢。
參考文獻:
[1]YangRui,LuoWeii,HuangJi.Multimediaforensics[J].ScientiaSinicaInformation,2013,43(12):16541672.(inChinese)
[2]HanilciC,KinnunenT.Sourcecellphonerecognitionfromrecordedspeechusingnonspeechsegments[J].DigitalSignalProcessing,2014,35:7585.
[3]AggarwalR,SinghS,RoulAK,etal.Cellphoneidentificationusingnoiseestimatesfromrecordedaudio[C]//ProcoftheInternationalConferenceonCommunicationsandSignalProcessing,2014:12181222.
[4]QiS,HuangZ,LiY,etal.Audiorecordingdeviceidentificationbasedondeeplearning[C]//ProcoftheIEEEInternationalConferenceonSignalandImageProcessing,2016:426431.
作者:吳張倩,蘇兆品,2,,,武欽芳,張國富,2,,