時間:2021年03月17日 分類:農業論文 次數:
摘要:命名實體識別是信息抽取的基礎任務,面向農作物病蟲害領域的命名實體識別對于農業信息化建設具有重要意義。為了提高面向農作物病蟲害領域命名實體識別的準確率,本文提出了采用字符級詞性標注與自定義領域詞典結合雙向長短時記憶網絡(Bi-LSTM)+條件隨機場模型(CRF)的方法對“病蟲害”、“作物”、“地名”、“農藥”4類實體詞進行識別。實驗表明,該方法的準確率達到了97.10%,因此該模型能夠有效應用于農作物病蟲害領域的命名實體識別任務。
關鍵詞:命名實體識別;Bi-LSTM;CRF;病蟲害
農作物病蟲害是我國主要的農業災害之一。農作物是指具有經濟價值而被用于田間種植的植物,包括糧食、棉麻、油料、糖煙、茶桑等作物。農作物在其生長過程中,經常會受到各種病蟲害為害,比如:稻飛虱、葉銹病、玉米蚜等,嚴重影響農作物的質量和產量。由于農作物的病蟲害種類繁多、生長發育規律各有不同,因此,認識病蟲害、掌握其生活習性等特點,對于病蟲害的有效防控極為重要[1-3]。
農作物論文范例:白水縣農作物種質資源普查與收集工作探析
命名實體識別(namedentityrecognition,NER)又稱實體抽取,其目的是從文本中抽取實體信息元素,包括人名、地名、組織機構名等[4-5]。目前,基于通用領域的命名實體識別已經相對成熟[6-9],尤其是人名、地名等實體識別準確率較高,然而,針對農作物病蟲害領域的命名實體識別研究甚少,且由于其特定的病害、蟲害、病原、藥物等實體信息構詞復雜,存在大量的單詞組合和實體嵌套現象,因而,其識別的準確率較低。
1相關工作
自1995年提出命名實體概念后[10],命名實體識別受到國內外研究者的廣泛關注。命名實體識別方法主要分為:基于規則、機器學習和深度學習的方法。基于規則的方法通過分析實體構詞特點和上下文特征,人工構建規則集合,規則集合需要領域專家參與構建,該方法在小數據集上表現較好,但隨著數據量的增大,人工構建成本高昂,可遷移性差。基于機器學習的方法主要包括隱馬爾科夫模型[11]、支持向量機[12]和條件隨機場[13]等。
其中,條件隨機場(ConditionalRandomFields,CRF)模型應用較為廣泛,CRF是LaffertyJ·D等在2001年提出的一種典型的判別式模型[13]。基于統計機器學習的命名實體識別研究的重點是構建特征集,包括詞的上下文信息、詞的位置、詞語之間的搭配。近年來,基于深度學習的命名實體識別方法因其能夠從數據中自主學習特征,而不需要人為設定,在自然語言處理中也獲取了廣泛的成功。近年來,農業領域命名實體識別的研究隨著自然語言處理的浪潮也逐漸受到重視。李想等提出基于條件隨機場的農作物病蟲害及農藥命名實體識別方法[14],對分詞后的語料采用6類特征進行標注,然后采用CRF模型進行分類,進而對農作物、病蟲害、農藥實體進行識別。
張劍等人采用基于條件隨機場方法,將農業命名實體分為病蟲害、作物、化肥及農藥4種實體類別進行命名實體識別[15],并利用自定義的詞性標注集對分詞進行標注,后通過CRF模型添加不同特征進行實體識別。李冬梅等提出了BCC-P方法,基于雙向長短期記憶網絡、卷積神經網絡和條件隨機場模型的植物屬性文本命名實體識別方法[16]。但是面向農作物病蟲害領域的命名實體識別仍處于起步階段,農作物病蟲害知識大部分是以非結構化的形式進行存儲,如圖1所示。農作物病蟲害實體識別的主要任務是找到并提取各類農作物病害(比如:條銹病、禿尖、小麥蠕孢葉斑根腐病)、蟲害的名稱(比如:十四點負泥甲、麥蜘蛛)、病原、藥物等特定類型的實體。
2農作物病蟲害文本命名實體識別方法
2.1識別任務本文的數據來源是國家農業科學數據共享中心作物病蟲害數據庫。該數據庫是以非結構化文本的形式存儲農作物病蟲害相關信息。針對病蟲害、與病蟲害相關的作物、病蟲害易發生的地點、農藥等四類實體進行識別。
2.2預處理通過網絡爬蟲獲取作物病蟲害數據信息并進行預處理。農作物病害、蟲害和農藥等信息存在大量的專業名詞,在分詞的過程中并不能有效識別專有名詞,如“東方螻蛄別命非洲螻蛄”,其中“東方螻蛄”和“非洲螻蛄”都是蟲害的名字,但是在分詞的時候會切分為“東方/螻蛄/別命/非洲/螻蛄”。目前針對作物病蟲害領域尚沒有一份公開的作物病蟲害詞典,本實驗采用網絡爬蟲的形式對該數據庫的表頭信息進行爬取,在此基礎上進行人工校對建立病蟲害領域詞典,以增強深度學習的先驗知識,對語義特征進行補充,使用jieba進行分詞,在對標注集進行自動標注的同時進行人工校對。
利用詞典的先驗知識強化神經網絡對各類實體的認識,以彌補實驗數據規模上的不足。對于農作物病蟲害領域的專有名詞,雖然構建了領域詞典,但仍然存在不少專有名詞未納入詞典,尤其存在較多組合新詞,且實驗采用的數據集樣本較少,因此文本標注的對象采用字級別的標注,以獲取更多的標記數量,有利于神經網絡的學習。語料標注采用BIO標注集,“B”表示一個字是一個實體詞的開始,“I”表示一個字是一個實體詞的非開始部分,“O”表示一個字不屬于任何實體。
2.3基于Bi-LSTM—CRF的實體識別模型為了能充分利用農作物病蟲害文本的上下文依存關系,本文采用Bi-LSTM模型進行建模。Bi-LSTM是一種雙向長短時記憶網絡,一個正向的LSTM利用上文信息,一個逆向的LSTM,利用下文信息,這樣,在t時刻,既能利用t-1時刻的信息,也能利用t+1時刻的信息。長短時記憶網絡(LongshortTermMemorynetwork,LSTM)是一種特殊的循環神經網絡[17],能夠學習長時間依賴。
3結果與分析
3.1實驗數據集
本文采用的作物病蟲害數據庫,是中國農業科學院作物科學研究所建立的,擁有4000多農業病蟲害信息。該數據庫按照作物種類進行分類,每個類別下詳細的按照作物的病害、蟲害的名字記錄其具體的病蟲害信息。對于作物病害信息,記錄主要包括病害名稱、癥狀、發生范圍、病原、傳播途徑和發病條件以及防治方法。對于作物的蟲害,記錄主要包括蟲害名稱、分布范圍、寄主信息、為害特點、形態特征、生活習性和防治方法等。在對爬取的文檔進行預處理后得到最終的數據集,數據集的信息如表1所示。
由于數據集的規模較小,為了能夠充分利用數據集的樣本,本實驗將數據集按4:1的比例劃分訓練集和測試集,采用五折交叉驗證的方式進行實驗。為了驗證結合自定義領域詞典的Bi-LSTM—CRF神經網絡對命名實體識別的意義,輔以CRF模型進行對比實驗。
4結論
本文介紹了一種面向農業病蟲害領域的實體識別方法,希望構建農作物病蟲害數據集。該方法融合領域詞典和深度學習的優勢,能夠識別出作物病蟲害文本中的“病蟲害”、“作物”、“地名”、“農藥”等實體,且取得了較好的效果。但是農作物病蟲害領域命名實體識別任務相較于通用領域的實體識別還存在著很大的提升空間,在未來的研究中,可以構建一個大規模的領域詞典,以增強先驗知識,構建標準語料庫,利用規模更大的語料庫來構建高質量的詞向量,充分利用詞語潛在的抽象特征,以期待進一步提升已有的識別效果。
參考文獻
[1]張奎棟.農作物病蟲害專業化防治探討[J].種子科技,2020,38(3):71+73.
[2]劉鑫,郜翻身,高娃等.巴彥淖爾市主要農作物施肥情況調查及存在問題分析[J].內蒙古農業大學學報(自然科學版),2018,39(3):15-24.
[3]郭沛沛.內蒙古特色農產品產業化發展研究[J].內蒙古農業大學學報(自然科學版),2013,34(2):104-107.
[4]LiuL,WangDB.Areviewonnamedentityrecognition[J].JournaloftheChinaSocietyforScientificandTechnicalInformation,2018,37(3):329-340.
[5]劉瀏,王東波.命名實體識別研究綜述[J].情報學報,2018,37(3):329-340.
[6]GaoYan,WangYandong,WangPatrick,etal.MedicalNamedEntityExtractionfromChineseResidentAdmitNotesUsingCharacterandWordAttention-EnhancedNeuralNetwork.[J].InternationalJournalofEnvironmentalResearchandPublicHealth,2020,17(5):1-17.
作者:謝聰嬌,高靜*,陳俊杰