時間:2021年06月17日 分類:農業論文 次數:
摘要:蔬果采摘機器人面對的自然場景復雜多變,為準確識別和分割目標果實,實現高成功率采收,提出基于多源圖像融合的識別方法。首先,針對在不同自然場景下單圖像通道信息不充分問題,提出融合RGB圖像、深度圖像和紅外圖像的多源信息融合方法,實現了機器人能夠適應自然環境中不同光線條件的番茄果實。其次,針對傳統機器學習訓練樣本標注低效問題,提出聚類方法對樣本進行輔助快速標注,完成模型訓練;最終,建立擴展MaskR-CNN深度學習算法模型,進行采摘機器人在線果實識別。實驗結果表明,擴展MaskR-CNN算法模型在測試集中的檢測準確率為98.3%、交并比為0.916,可以滿足番茄果實識別要求;在不同光線條件下,與Otsu閾值分割算法相比,擴展MaskR-CNN算法模型能夠區分粘連果實,分割結果清晰完整,具有更強的抗干擾能力。
關鍵詞:番茄果實;機器視覺;目標識別;深度學習;MaskR-CNN算法
0.引言
我國是番茄生產總量種植面積最大,生產總量最多的國家[1]。目前,國內番茄采摘主要依靠人工進行。一方面,受人口老齡化影響,勞動力資源緊缺導致勞動力成本不斷升高[2];另一方面,人工采摘效率較低,而且質量無法保證。因此,研究番茄果實識別算法,提高采摘設備的自動化、智能化水平對緩解資源緊缺,提高生產效率具有重要意義。隨著農業自動化、智能化技術的不斷發展,機器視覺技術已經成為農業采摘機器人的核心技術之一[3-5]。圖像分割是機器視覺技術的前提和關鍵[6]。
由于番茄果實表皮柔軟,而末端執行器一般為金屬結構,且動作簡單,前期的圖像分割精度較低會導致果實采摘損傷率高。因此,提高圖像分割的準確率和精度、是目前國內外研究的熱點問題。傳統圖像分割算法一般使用RGB圖像,以顏色閾值作為分割依據[7-9]。對圖像中的幾何形狀和空間位置等深層特征的提取較為困難,算法的適應性差。特定的閾值參數只針對特定的場合,當自然環境變化,如光照變化時,設定的閾值參數失效進而導致識別失敗。
近年來,隨著計算機硬件性能的不斷提升,深度神經網絡(DNN)方法憑借其強大的特征提取能力和自主學習能力被廣泛應用于農作物目標檢測[10-11]。與傳統算法相比,神經網絡模型能夠提取出圖像的隱性特征(無明顯實際含義的特征),并通過自我學習和迭代得出劃分的依據[12-16]。增加圖像的信息量能夠提高分割的準確率和精度,使用多源圖像是一種有效方法。
通過加噪聲、改變圖像亮度、對比度等方法對樣本集進行數據增強,基于深度學習的果實識別算法在場景變化的自然環境具有更好的檢測效果,但存在一定的局限性,例如需要大量訓練樣本,樣本標注工作量大、訓練時間長等問題。針對自然環境下,環境復雜多變,干擾因素多,信息量大,特征提取困難;番茄果實柔軟易損,圖像分割精度要求高;單源RGB圖像對重疊、粘連果實識別效果不佳;傳統樣本集標注方法重復性高,工作量大的問題。本文在MaskR-CNN的基礎上,提出一種基于多源圖像融合的圖像分割算法,借助聚類方法完成樣本集的快速標注,以提高標注效率和檢測精度,以期實現對番茄果實圖像進行精準分割。
1.基于多源圖像融合的番茄果實識別實例分割算法模型
1.1圖像配準及多源圖像融合
在溫室番茄種植環境下,光線變化、重疊粘連等復雜情況很難用單純的RGB圖像經過深度學習模型進行準確預測,而加入深度信息與紅外信息將有利于這些困難樣本的預測,提高分割精度[17]。深度圖像不受光照影響,能通過深度信息區分不同番茄個體,紅外圖像中心亮周圍暗的特點有利于提取邊緣特征。
針對本研究使用不同傳感器采集到的多源圖像,其分辨率存在差異。普通彩色圖像的分辨率為19201080像素,而深度圖和紅外圖的分辨率為512424 像素,需要使同一樣本下的圖像具有相同的分辨率。由于不同傳感器視野范圍的不同,簡單的圖像縮放不能實現圖像配準,通過轉換矩陣可以實現像素點的精準匹配。采集到的深度圖和紅外圖的圖像分辨率均為512424像素,下面以紅外圖向RGB彩色圖匹配為例說明圖像配準的過程。
1.2基于聚類算法的數據集快速標注方法
完整的訓練數據不僅要包括清晰有效的圖像信息,還需要有充分有效的標注信息。已知番茄果實圖像區域準確對應的語義標簽,能夠幫助神經網絡進行有效地自我學習和迭代。對于大量的開放環境中番茄果實圖像樣本數據集,其標注難點在于,語義分割任務需要對圖像中的每一個具體像素點分配語義標簽。一方面,數據集標注工作任務量大,需要投入大量的時間和精力;另一方面,人工長時間標注出錯率高,標注過程會受標注者的主觀因素影響。因此,一種能夠提高標注效率、縮短標注時間輔助標注工具或算法是必要的。
目前,有許多公開的標注工具如VIA等能夠輔助研究人員進行標注工作。然而,這些標注工具只能對標注對象使用矩形框框選或者折線包絡等粗略的標記,無法滿足對圖像中每個像素分配語義標簽的像素級標注需求。針對這一問題,本文提出一種基于聚類算法的半自動快速標注方法,利用融合后圖像信息廣泛且綜合的特點,將像素點的顏色、深度和紅外信息作為聚類特征,沿用K-means算法的思想對場景進行初步分割,在此基礎上完成樣本集標注工作。
K-means是一種常用的聚類算法[19-20],根據數據樣本內部特征的相似性,將一個數據集劃分為固定數量的不相交子數據集[21],算法一般過程為:計算所有樣本到所有聚類中心的距離并分配給最近的聚類中心,循環迭代直到全局樣本到各自聚類中心的距離之和最小,無法繼續優化時算法結束。
1.3基于擴展
MaskR-CNN的圖像實例分割算法MaskR-CNN綜合了研究成果,沿用了FasterR-CNN的思想,采用ResNet-FPN架構進行特征提取,與FasterR-CNN相比添加了Mask預測分支,不僅能夠實現物體分類、定位,還能進行實例分割。與語義分割相比,實例分割對同類物體更精確。MaskR-CNN的優點在于:具有較高的精度,較快的運行速度,較強的泛化性能,被廣泛應用于各種場景。
但是在農業采摘場景中,MaskR-CNN模型存在一定的不足:農業場景中番茄成熟果實相互遮擋,由于卷積網絡實例分割依賴于紋理特征和顏色差異,而相互覆蓋成熟番茄果實表面平滑,顏色均勻,果實的邊界難以被準確分割。為適應多源融合圖像的特點,發揮多源圖像的優勢,本文在MaskR-CNN的框架上進行擴展,網絡輸入由原來的RGB圖像更改為多源融合圖像,網絡輸出為目標物體的類別、最小包絡框和目標物體像素級掩膜結果。由于輸入圖像的維數由傳統的3維更改為5維融合圖像,因此本研究對ResNet[22-23]淺層網絡結構進行修改,并將修改過的網絡部分參數進行高斯隨機初始化。因為輸入后為全卷積神經網絡,所以只需修改第1層參數。
加載權重參數排除conv1,調整heads包含的網絡層將conv1添加至訓練層。遷移學習是指預先使用大量通用數據對模型參數進行粗調,然后使用本地數據進行微調[24-25]。利用遷移學習的優勢,先使用ImageNet數據集對特征提取網絡ResNet50進行預訓練,然后使用本地制作的番茄果實數據集進行訓練。數據增強能夠提高模型的精度和泛化性能,針對自然環境下的任務特點,通過改變圖像亮度、對比度、添加高斯噪聲等方式對原始數據集進行數據增強操作,強化模型對光線變化的適應能力。
2.實驗驗證和比較
2.1樣本采集及模型訓練
Microsoft的Kinect相機是一種被廣泛應用的多模態視覺傳感器,可以同時采集RGB圖、紅外圖和深度圖[26]。近年來大規模數據集(如ImageNet,COCO等)為計算機視覺研究工作便捷,研究人員在缺乏實驗條件和樣本數據集的條件下,能夠借助現有數據集資源實現一些基礎、普適的計算機視覺任務[27-28]。但對于具體的數據驅動的計算機視覺識別模型,還需要提供大規模標注良好的樣本數據集進行針對性訓練。
本文樣本采集于上海金山區某現代溫室示范基地番茄設施溫室,在計算機和KinectV2相機平臺上,編寫控制程序采集開放農業環境下的番茄果實圖像。共采集了2000份(約30GB)樣本作為訓練集原始材料,其中每份樣本包含一幅RGB彩色圖像(19201080像素)、一幅紅外圖像(512424 像素)、一幅深度圖像(512424 像素)和一張坐標映射關系表。
農業論文投稿刊物:農業機械學報(月刊)創刊于1957年,是由中國科協主管、中國農業機械學會和中國農業機械化科學研究院主辦的唯一綜合性學術期刊, 農業工程類中文核心期刊,美國工程信息公司(EI)和美國化學文摘社(CA)收錄期刊。
3.結論
(1)提出了一種基于多源圖像融合的擴展MaskR-CNN圖像實例分割模型,其特點在于使用了彩色、深度、紅外融合圖像作為神經網絡的輸入,有效地擴充了圖像的信息密度。
(2)提出了使用K-means聚類算法對數據集進行快速標注的方法,提高了圖像標注效率,標注時間由原來單幅圖像60s左右減少到20s左右。
(3)與以單一RGB圖像輸入的MaskR-CNN模型相比,基于多源圖像的擴展MaskR-CNN算法其檢測精度由95.4%提升至98.3%,交并比由0.851提升至0.916。
(4)與傳統Otsu檢測算法和YOLOv3算法相比,該算法能夠區分不同番茄果實個體,圖像分割結果清晰,邊緣輪廓完整,且受光線變化影響小,適合自然環境下的作業需求。
參考文獻
[1]熊露,朱孟帥.番茄2016年市場分析及2017年市場預測[EB/OL].(2017-01-22)[2017-01-22]. http://jiuban.moa.gov.cn/zwllm/jcyj/201701/t20170122_5461550.htm
[2]董坦坦.成熟番茄的圖像識別及其位姿的獲取研究[D].南京:南京農業大學,2009.DONGTantan.Imagerecongnitionandposturedetectionofripetomatobasedonmachinevision[D].Nanjing:NanjingAgriculturalUniversity,2009.(inChinese)
[3]楊長輝,劉艷平,王毅,等.自然環境下柑橘采摘機器人識別定位系統研究[J].農業機械學報,2019,50(12):14-22.YANGChanghui,LIUYanping,WANGYi,etal.ResearchandExperimentonRecognitionandLocationSystemforCitrusPickingRobotinNaturalEnvironment[J].TransactionsoftheChineseSocietyforAgriculturalMachinery,2019,50(12):14-22.http://www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20191202&journal_id=jcsamDOI:10.6041/j.issn.1000-1298.2019.12.002(inChinese)
[4]HENTENEJV,TUIJLJV,HEMMINGJ,etal.Fieldtestofanautonomouscucumberpickingrobot[J].BiosystemsEngineering,2003,86(3):305-313.
[5]畢松,高峰,陳俊文等.基于深度卷積神經網絡的柑橘目標識別方法[J].農業機械學報,2019,50(5):181-186.BISong,GAOFeng,CHENJunwen,etal.DetectionMethodofCitrusBasedonDeepConvolutionNeuralNetwork[J].TransactionsoftheChineseSocietyforAgriculturalMachinery,2019,50(5):181-186.http://www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20190521&journal_id=jcsamDOI:10.6041/j.issn.1000-1298.2019.05.021(inChinese)
作者:王文杰,貢亮※,汪韜,楊智宇,張偉,劉成良