時間:2021年05月13日 分類:農業論文 次數:
摘要:為提高農業物聯網的數據感知質量,提出了基于向量升維的異常農情數據實時檢測方法。首先采用滑動窗口機制將標準化后的時序農情數據轉換為觀測向量,接著將相鄰向量元素差值之和作為新向量元素對觀測向量進行升維,最后構建了異常數據實時檢測框架。采用畜禽養殖物聯網環境數據進行實驗,開展滑動窗口大小取值、分類模型的異常數據檢測性能與敏感性分析。結果表明,滑動窗口大小取2為宜,提出的向量升維方法能夠有效提升分類模型的異常數據檢測能力,且線性核支持向量機具有較優的異常數據檢測性能和計算耗時,其檢測效果與數據波動性和采樣間隔負相關、與異常值偏離幅度正相關。
關鍵詞:向量;升維;農情數據;異常檢測;物聯網
農業物聯網系統已成為農業大數據最重要的數據源之一[1]。通過將具有感知、通信和計算能力的微型傳感器部署應用于農業生產管理中,全面、準確、高效地監測土壤-植物-大氣連續體,能夠有效推進“互聯網+”現代農業行動,為精準農業的實現提供重要支撐[2-3]。農業物聯網設備往往長期工作在復雜的生產環境中,受設備制造技術、工藝與成本以及網絡傳輸的影響,數據收集過程中不可避免地產生遠離序列一般水平的極大值或極小值,即異常數據[4-5]。
農藝師評職知識:農業化學專業論文投哪些sci期刊
如何實時有效地檢測異常數據,保證采集的原始數據質量是開展高價值農業生產分析和實現物聯網設備智能調控的根本前提。Lo等[6]提出一種基于分布式模型的非線性傳感器異常診斷算法,具有較高的檢測率,且開銷低于集中式算法。Ludeña-Choez等[7]提出基于非負矩陣分解的機器學習方法提取農業土壤墑情數據特征,再使用邏輯回歸和支持向量機進行訓練和檢測,性能優于基于主成分分析和多尺度主成分分析的檢測模型。通過建立回歸模型來檢測異常數據得到了研究者們的廣泛關注。
段青玲等[8]采用滑動窗口機制動態更新訓練數據集構建基于支持向量回歸的畜禽養殖物聯網數據預測模型,通過比較預測數據和實際數據的差異判斷是否出現異常。但該方法中預測模型與異常值判斷區間的頻繁更新造成計算開銷較大,且異常數據的判斷條件較為復雜。新興的長短期記憶模型能夠很好地捕獲到數據在時間維度上的關聯[9],但模型需要大量的訓練數據集,實用性較差。
Zidi等[10]將4個傳感器節點的短時段歷史數據聚合成新觀測向量,通過訓練高斯核支持向量機SVM(supportvectormachine)進行異常數據檢測,取得了較好的效果。Noshad等[11]將2個空氣溫度和2個空氣濕度傳感器的3次連續采樣數據聚合成新觀測向量,結果表明隨機森林RF(randomforest)模型的異常檢測能力優于高斯核SVM。然而,以上方法尚存在不足:未對數據進行標準化處理,模型的異常數據檢測效果對數據取值范圍較為敏感;將多項數據聚合為新觀測向量后,異常數據的準確定位存在困難;數據集發生變化時,隨機森林RF和高斯核SVM均需重新調參、工作量較大。
受到成本、電源供給等因素制約,農情傳感器大規模應用部署較為困難。實際農業生產中存在稀疏采樣的需求,即選取少量代表性站點、較大采樣間隔進行數據采集[12]。本研究以單傳感器數據異常檢測研究為切入點,提出基于數據向量升維的農情異常數據檢測方法,探索數據預處理與升維方法、采樣間隔對異常檢測效果的影響,比較分析不同分類模型之間檢測性能的差異,為實現農情數據的高質量感知提供參考。
1材料與方法
1.1數據來源
實驗數據來自安徽省合肥市長豐縣生態農場,自2018年10月起部署傳感器節點不間斷監測農場羊圈內環境信息,采樣間隔為5min。取2019年6月10日至30日共21d(504h,6048數據點)時間段內空氣相對濕度AirRH(airrelativehumidity)、CO2濃度、NH3濃度和H2S濃度觀測數據。受農場的生產習性與天氣影響,農場養殖大棚內夜間的空氣濕度、CO2濃度、NH3濃度以及H2S濃度較高,而午間監測數據均會有不同程度的降低。為系統地評估提出方法的性能,以7d數據為步長,采用2組連續14d數據進行實驗,每組數據中前7d數據作為訓練集,后7d數據作為測試集進行異常數據檢測模型的訓練和性能驗證。
1.2基于向量升維的異常數據檢測框架
基于向量升維的異常數據實時檢測框架。傳感器節點負責數據采樣并發往服務器。服務器端負責數據接收、執行模型訓練與異常檢測。模型訓練流程如下:取前一周采集數據,按設定比例和偏離幅度向數據集中隨機插入異常數據,構建訓練向量集并升維,最后訓練分類模型以得到異常數據檢測模型。下一周數據采集時,應用該模型進行異常數據實時檢測。本研究采用的分類模型有線性核、高斯核支持向量機SVM以及隨機森林RF[13-15]。
下文若未特別說明,默認采用線性核SVM。在異常數據實時檢測過程中,服務器端對來自傳感器節點的最新數據與歷史最近N-1個數據進行標準化,構建實時檢測向量并進行升維,最后傳入模型中檢測異常。如果被判斷為正常數據則保存該最新數據,否則進行異常值校正后再保存。當數據采集時長滿一周后重新訓練模型。異常值校正方法可采用回歸模型預測、均值替換法等方法[16]。
2結果與分析
實驗采用Python語言編程,系統配置為IntelCorei5、8GBRAM和Windows10操作系統。主要研究不同窗口大小、常規和稀疏采樣場景下不同異常值比例和偏離幅度對模型檢測效果的影響,以甄選出最佳窗口大小、分析模型對不同數據集的異常檢測敏感度。
3討論與結論
異常數據處理是提高農業物聯網數據感知質量的重要手段。本研究提出了基于向量升維的農情異常數據實時檢測方法,采用畜禽養殖物聯網環境數據,綜合評估了其異常數據檢測性能與特征。實驗結果表明,通過將時序農情數據標準化、向量轉換與升維操作后,支持向量機、隨機森林等分類模型的異常數據檢測能力均得到明顯提升。由于向量升維處理后的數據線性可分,采用線性核支持向量機能夠以低計算耗時獲得較優的異常數據檢測效果,且避免了高斯核支持向量機等模型訓練時需要多次確定超參數、泛化能力的不足的問題。
實驗發現,異常檢測效果與異常值出現頻度基本無關,但與數據波動性和采樣間隔負相關、與異常值偏離幅度正相關。相同的目標數據集,對于震蕩幅度較為平緩的數據,采樣間隔為5min時,模型對偏離幅度大于10%的異常數據檢測精確度和召回率分別可達100%和98.8%;采樣間隔增加到50min的稀疏采樣時,模型對偏離幅度大于30%的異常數據檢測精確度和召回率達83.2%和90.1%以上。
而對于波動性較強的數據,兩種采樣間隔下,模型對偏離幅度大于30%、60%的異常數據檢測精確度和召回率分別為100%和97.8%、98.3%和87.5%。本研究的實驗數據與大田、溫室大棚等農業生產環境和作物生長數據具有相似的變化特征,故所提出的農情異常數據實時檢測方法與結論可直接應用于大田、溫室大棚等其他農業生產場景下相關數據的異常值檢測以提高數據感知質量,具有較好的實際應用價值。后續將開展異常值校正方法的研究,為進一步提升農情數據的感知質量提供支撐。
參考文獻:
[1]吳華瑞,李慶學,繆祎晟,等.基于正則化與時空約束改進K最近鄰算法的農業物聯網數據重構[J].農業工程學報,2019,35(14):183-189.
[2]李道亮,楊昊.農業物聯網技術研究進展與發展趨勢分析[J].農業機械學報,2018,49(1):1-20.
[3]張芳,王佩欣,何勇,等.基于物聯網的陽臺微型溫室作物生長環境因子探究[J].浙江農業學報,2020,32(2):234-242.
[4]YUTQ,WANGXB,SHAMIA.Recursiveprincipalcomponentanalysis-baseddataoutlierdetectionandsensordataaggregationinIoTsystems[J].IEEEInternet ThingsJ,2017,4(6):2207-2216.
[5]GAOYB,XIAOF,LIUJX,etal.Distributedsoftfaultdetectionforintervaltype-2fuzzy-model-basedstochasticsystemswithwirelesssensornetworks[J].IEEETransIndInformatics,2019,15(1):334-347.
[6]LOC,LYNCHJP,LIUMY.Distributedmodel-basednonlinearsensorfaultdiagnosisinwirelesssensornetworks[J].MechSystSignalProcess,2016,66/67:470-484.
作者:趙剛,饒元*,王文,姜敏,江朝暉