時(shí)間:2022年03月26日 分類:科學(xué)技術(shù)論文 次數(shù):
摘 要:中醫(yī)學(xué)歷史悠久、卷帙浩繁,但論述較為分散,知識(shí)混雜多樣。知識(shí)圖譜具有知識(shí)語義化、數(shù)據(jù)易關(guān)聯(lián)、易擴(kuò)充的特征,因而逐漸成為中醫(yī)藥知識(shí)信息化的重要手段。為有利于更好地運(yùn)用知識(shí)圖譜傳承發(fā)展中醫(yī)藥知識(shí),文章在簡(jiǎn)述知識(shí)圖譜在中醫(yī)藥領(lǐng)域的構(gòu)建與應(yīng)用情況的基礎(chǔ)上,重點(diǎn)從本體技術(shù)和分詞、實(shí)體識(shí)別、關(guān)系抽取等3種知識(shí)抽取技術(shù)等方面介紹了知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)在該領(lǐng)域中的研究應(yīng)用概況、規(guī)律與特點(diǎn)。文章還從知識(shí)圖譜存儲(chǔ)關(guān)系型知識(shí)的角度出發(fā)歸納了中醫(yī)藥領(lǐng)域?qū)υ擃愔R(shí)的應(yīng)用方向及關(guān)鍵技術(shù)。通過對(duì)文獻(xiàn)的分析與總結(jié),探討了中醫(yī)藥領(lǐng)域知識(shí)圖譜構(gòu)建與應(yīng)用中的問題并提出未來的發(fā)展建議。
關(guān)鍵詞:知識(shí)圖譜 中醫(yī)藥 本體 知識(shí)抽取 關(guān)系型知識(shí)
中國(guó)古代醫(yī)籍卷帙浩繁、晦澀難懂,現(xiàn)代中醫(yī)累積的電子數(shù)據(jù)文獻(xiàn)的數(shù)量也日漸巨大,且都存在知識(shí)散布難尋、利用率低的問題,不利于知識(shí)傳播傳承、輔助 臨 床 診 療 和 提 煉 總 結(jié) 新 知 識(shí) 。 知 識(shí) 圖 譜(Knowledge Graph, KG)是一種由 Google 于 2012 年首先提出以服務(wù)其互聯(lián)網(wǎng)搜索業(yè)務(wù)[1]的知識(shí)庫,它把從現(xiàn)實(shí)世界中或語言描述的內(nèi)容中抽象的對(duì)象和關(guān)系視為知識(shí),并采用點(diǎn)和邊的形式連接成為更容易理解、挖掘的網(wǎng)絡(luò)圖結(jié)構(gòu)。作為一種可視性強(qiáng)、自帶推理規(guī)則且便于機(jī)器學(xué)習(xí)與利用的知識(shí)存儲(chǔ)和應(yīng)用技術(shù),知識(shí)圖譜已被許多領(lǐng)域應(yīng)用于具體場(chǎng)景中。將中醫(yī)藥知識(shí)轉(zhuǎn)化為圖譜形式存儲(chǔ)起來,更有利于用現(xiàn)代化信息手段對(duì)中醫(yī)藥文化進(jìn)行傳播傳承和創(chuàng)新發(fā)展。為更清晰地把握知識(shí)圖譜及其關(guān)鍵技術(shù)在中醫(yī)藥領(lǐng)域研究工作的動(dòng)態(tài)、進(jìn)展和存在的問題,為科技部國(guó)家重點(diǎn)研發(fā)計(jì)劃(NO.2018YFC1704401)課題《陰虛證辨證規(guī)范化及辨證新方法研究》中的辨證規(guī)范和辨證方法研究、陰虛證演變規(guī)律研究所基于的“陰虛證知識(shí)庫”的構(gòu)建以及古籍的深度利用提供借鑒參考,也為更多學(xué)者的相關(guān)研究提供信息情報(bào)支持,加快知識(shí)圖譜技術(shù)在本領(lǐng)域的研究應(yīng)用進(jìn)程,本文對(duì)知識(shí)圖譜及其關(guān)鍵技術(shù)在中醫(yī)藥領(lǐng)域的研究與應(yīng)用情況進(jìn)行了綜述。
在簡(jiǎn)要介紹中醫(yī)藥各子領(lǐng)域構(gòu)建和應(yīng)用知識(shí)圖譜的情況基礎(chǔ)上,重點(diǎn)梳理和分析了本體和知識(shí)抽取(包括分詞、實(shí)體識(shí)別和關(guān)系抽取)技術(shù)的基本概念及其在知識(shí)圖譜構(gòu)建中的關(guān)鍵作用,該關(guān)鍵技術(shù)在中醫(yī)藥領(lǐng)域的主要研究方向、研究對(duì)象、應(yīng)用場(chǎng)景、采用的方法和工具等,以及其中的規(guī)律和特點(diǎn)。通過引入關(guān)系型知識(shí)的概念,歸納總結(jié)了中醫(yī)藥領(lǐng)域關(guān)系型知識(shí)的組織與存儲(chǔ)形式和應(yīng)用研究的特點(diǎn)、方向、目的及相關(guān)技術(shù)方法等。最后探討了知識(shí)圖譜及其關(guān)鍵技術(shù)在中醫(yī)藥領(lǐng)域的研究與應(yīng)用中存在的問題,并提出未來研究發(fā)展方向的相關(guān)建議。
1 中醫(yī)藥領(lǐng)域的知識(shí)圖譜
1.1 知識(shí)圖譜概述
知識(shí)圖譜是一種用實(shí)體的多關(guān)系網(wǎng)絡(luò)圖表示知識(shí)的技術(shù)。其中的網(wǎng)絡(luò)圖由“實(shí)體(Entity)”抽象成的節(jié)點(diǎn)和“關(guān)系(Relation)”或“屬性(Property)”抽象成的邊構(gòu)成。其中人名、公司名稱為實(shí)體,“是……的父親(母親)”、“工作于”表示為關(guān)系,年齡是屬性(其值為數(shù)字)。知識(shí)圖譜從邏輯結(jié)構(gòu)上可以劃分為模式層和數(shù)據(jù)層。模式層是通過對(duì)知識(shí)的提煉形成了知識(shí)圖譜的概念模型和邏輯基礎(chǔ),中醫(yī)藥領(lǐng)域一般采用領(lǐng)域本體作為知識(shí)圖譜的模式層。數(shù)據(jù)層是對(duì)模式層的數(shù)據(jù)填充與實(shí)例化,使用形如(實(shí)體-關(guān)系-實(shí)體)或(實(shí)體-屬性-屬性值)形式的三元組或圖模型表示知識(shí)[2],并 采 用 關(guān) 系 型 數(shù) 據(jù) 庫 或 Neo4j、JanusGraph、TigerGraph、Neptune、OrientDB等圖數(shù)據(jù)庫來存儲(chǔ)這些知識(shí)。
基于其邏輯結(jié)構(gòu),知識(shí)圖譜的構(gòu)建方法可分為三類:自底向上、自頂向下和二者混合的方法,區(qū)別在于抽象并構(gòu)建模式層和提取知識(shí)構(gòu)建數(shù)據(jù)層的順序不同。知識(shí)圖譜構(gòu)建與應(yīng)用的關(guān)鍵技術(shù)包括概念模式設(shè)計(jì)、知識(shí)抽取、知識(shí)融合、知識(shí)推理與挖掘等。概念模式設(shè)計(jì)即從領(lǐng)域知識(shí)中抽象出概念、屬性和關(guān)系的定義與分類,以作為知識(shí)圖譜的知識(shí)描述框架。知識(shí)抽取可以從非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)中提取出實(shí)體、關(guān)系、屬性等知識(shí);知識(shí)融合可統(tǒng)一實(shí)體名稱或消除指代的歧義;知識(shí)推理與挖掘可通過挖掘隱含的知識(shí)對(duì)知識(shí)圖譜進(jìn)行擴(kuò)展、展示或進(jìn)行其他利用。
1.2 各子領(lǐng)域的知識(shí)圖譜
目前,中醫(yī)藥多個(gè)子領(lǐng)域的學(xué)者主要基于現(xiàn)代文獻(xiàn)或多種文獻(xiàn)融合,構(gòu)建相關(guān)子領(lǐng)域知識(shí)圖譜并進(jìn)行了知識(shí)圖譜的應(yīng)用。①中醫(yī)證候領(lǐng)域。肖猛[3]、羅計(jì)根[4]、郭夢(mèng)瑩[5]、周海[6]等學(xué)者以中醫(yī)證候?yàn)橹行模谥嗅t(yī)證候本體、中文百科網(wǎng)站、現(xiàn)代中醫(yī)書籍等現(xiàn)代文獻(xiàn)資料中的辨證知識(shí),構(gòu)建了中醫(yī)證候知識(shí)圖譜,并在此基礎(chǔ)上進(jìn)行了可視化或構(gòu)建了中醫(yī)健康管理平臺(tái)、中醫(yī)智能問答模型。②中醫(yī)醫(yī)案領(lǐng)域。于彤[7]、李新龍[8]、朱丹[9]、鄧宇[10]、謝先章[11]、鄭子強(qiáng)[12]等學(xué)者從專病治療臨床數(shù)據(jù)、名老中醫(yī)醫(yī)案、專科電子病歷、網(wǎng)絡(luò)數(shù)據(jù)或古代醫(yī)案中獲取知識(shí),構(gòu)建臨床醫(yī)案、辨證論治、問診或?qū)2≈R(shí)圖譜,并進(jìn)行了可視化、學(xué)習(xí)與推理診療經(jīng)驗(yàn)或構(gòu)建了問診平臺(tái)等應(yīng)用。
③中醫(yī)方劑領(lǐng)域。郭文龍[13]、趙凱[14]、尹丹[15]等學(xué)者基于經(jīng)典名方或方劑數(shù)據(jù)庫中的方劑知識(shí),構(gòu)建方劑知識(shí)圖譜,并進(jìn)行檢索、可視化、圖模式搜索等應(yīng)用。④中藥領(lǐng)域。仲懌等[16]和吳鴻[17]基于現(xiàn)代中藥制藥過程和古今文獻(xiàn)中的知識(shí),建立了中藥知識(shí)圖譜。⑤中醫(yī)綜合領(lǐng)域。張德政等[18]、張瑩瑩[2]、張雨琪等[19]融合不同數(shù)據(jù)源的知識(shí),構(gòu)建了中醫(yī)核心知識(shí)圖譜、中醫(yī)藥知識(shí)圖譜、用方經(jīng)驗(yàn)知識(shí)圖譜等綜合類圖譜。⑥其他子領(lǐng)域。郝偉學(xué)[20]、于彤[21]、崔家鵬[22]、王呂穎[23]、葉斌[24]、任薇[25]、盧克治[26]、王菁薇[27]等學(xué)者基于現(xiàn)代或古代文獻(xiàn)數(shù)據(jù)資料的知識(shí),構(gòu)建了中醫(yī)健康、養(yǎng)生、脾臟象理論、中醫(yī)問答、胸痹辨證論治或某類古籍的知識(shí)圖譜,并進(jìn)行了知識(shí)可視化、檢索、推理、推薦等應(yīng)用研究。
2 中醫(yī)藥領(lǐng)域知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)
在知識(shí)圖譜的概念提出前,本體、自然語言處理、數(shù)據(jù)挖掘等技術(shù)均已在多個(gè)領(lǐng)域被廣泛研究和應(yīng)用——這其中也包括中醫(yī)藥領(lǐng)域。這為知識(shí)圖譜在中醫(yī)藥領(lǐng)域的引入和快速發(fā)展奠定了一定的技術(shù)基礎(chǔ)。通過梳理文獻(xiàn),發(fā)現(xiàn)在中醫(yī)藥領(lǐng)域的知識(shí)獲取與應(yīng)用(包括知識(shí)圖譜和其他類型知識(shí)成果或產(chǎn)品的構(gòu)建與應(yīng)用)中,對(duì)部分知識(shí)圖譜關(guān)鍵技術(shù)如本體技術(shù)、知識(shí)抽取技術(shù)和關(guān)系型知識(shí)應(yīng)用技術(shù)的研究應(yīng)用相對(duì)較多。因此本章重點(diǎn)分析本體和知識(shí)抽取技術(shù)的研究應(yīng)用情況以及其規(guī)律和特點(diǎn),同時(shí)將在下一章中歸納總結(jié)中醫(yī)藥領(lǐng)域關(guān)系型知識(shí)的組織與存儲(chǔ)形式和應(yīng)用研究的特點(diǎn)、方向、目的等。
2.1 本體技術(shù)本體(Ontology)
可以看作是一個(gè)領(lǐng)域的共享概念,是表示與組織有用知識(shí)的方法。本體的組織結(jié)構(gòu)包括:概念、屬性和關(guān)系的定義,以及這些定義的分類。子本體通過層次結(jié)構(gòu)連接成上層本體[28,29]。本體突出的是概念以及概念之間的關(guān)系,因此本體是知識(shí)圖譜數(shù)據(jù)模式的一種描述[18]。本體不僅被用于中醫(yī)藥知識(shí)圖譜的構(gòu)建,也被用于中醫(yī)藥領(lǐng)域的敘詞表[30]、術(shù)語體系[31]、語義網(wǎng)絡(luò)[32]、知識(shí)庫[33]、系統(tǒng)建模[34]、信息處理[35】等。
本體作為知識(shí)描述框架在中醫(yī)藥領(lǐng)域的研究應(yīng)用文獻(xiàn)最早可追溯到2004年[36,37]關(guān)于中醫(yī)藥一體化語言系統(tǒng) TCMLS[38]的研究,此后研究方向包括中醫(yī)藥領(lǐng)域及子領(lǐng)域本體[39,40]、基于本體的知識(shí)庫構(gòu)建的方法[41],已有本體或子本體的完善、進(jìn)化、拓展與應(yīng)用[28,42-44],以及如何采用新方法實(shí)現(xiàn)本體構(gòu)建與本體更新過程的自動(dòng)化、智能化[45]。在中醫(yī)藥領(lǐng)域,本體的研究對(duì)象包括證候[40]、疾病[46]、癥狀[47]、方劑[48]、治則治法[49]、診法[50]、針灸[51,52]、醫(yī)家[53]、醫(yī)案[47]、中藥[53]等;本體的應(yīng)用以規(guī)范化采集、描述和存儲(chǔ)知識(shí),領(lǐng)域知識(shí)或經(jīng) 驗(yàn) 的 檢 索 、挖 掘 、推 理 、推 薦 、問 答 、共 享 等 為主[33,37,39]。中醫(yī)藥本體的構(gòu)建方法大多采用“七步法”“骨架法”,或它們的改進(jìn)[54]、結(jié)合方法[55]。
可完全按步驟完成新本體構(gòu)建,或者借鑒已有成果加以提取[56]、復(fù)用[57]或擴(kuò)展[58]。構(gòu)建工具以 Protégé 軟件為主,并用RDF或OWL進(jìn)行知識(shí)描述。中醫(yī)藥本體作為一種描述框架和建模方式,未來仍然是知識(shí)工程里不可缺少的組成部分。在該領(lǐng)域的子領(lǐng)域本體或與之相關(guān)的敘詞表、術(shù)語體系、語義網(wǎng)絡(luò)和知識(shí)圖譜等陸續(xù)出現(xiàn)和完善后,復(fù)用、改進(jìn)或重用現(xiàn)有本體以提高構(gòu)建效率、降低資源浪費(fèi)是一個(gè)重要趨勢(shì)。而隨著人工智能技術(shù)在自然語言處理、推理和檢索等領(lǐng)域應(yīng)用的逐漸成熟,本體的自動(dòng)、智能構(gòu)建與更新技術(shù)也是重要的研究方向(目前以人工構(gòu)建為主),或與人工構(gòu)建、本體復(fù)用等相結(jié)合以構(gòu)建目前來說相對(duì)復(fù)雜的領(lǐng)域本體。
2.2 知識(shí)抽取技術(shù)知識(shí)抽取(Knowledge Extraction)是從源數(shù)據(jù)中分析、識(shí)別、篩選和提取知識(shí)的過程。根據(jù)數(shù)據(jù)源不同,可將知識(shí)抽取分為結(jié)構(gòu)化知識(shí)抽取、半結(jié)構(gòu)化知識(shí)抽取、非結(jié)構(gòu)化知識(shí)抽取。非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取涉及一系列的關(guān)鍵技術(shù),其中用于純文本數(shù)據(jù)處理的技術(shù)屬于文本數(shù)據(jù)挖掘技術(shù)的一種,也包含在自然語言處理的技術(shù)中,如分詞、實(shí)體識(shí)別(包括術(shù)語抽取)、關(guān)系抽取等。
2.2.1 分詞分詞(Word Segmentation)是把語句切分為單個(gè)有意義的詞,從而將連續(xù)的漢字序列重新組合成詞序列的過程,也叫切詞[59]。分詞的正確性直接影響著后續(xù)進(jìn)行的實(shí)體識(shí)別、關(guān)系抽取與知識(shí)利用的效率和準(zhǔn)確性。對(duì)中醫(yī)藥領(lǐng)域文本進(jìn)行分詞的常用方法包括基于規(guī)則的方法、基于統(tǒng)計(jì)的方法(機(jī)器學(xué)習(xí)法)和深度學(xué)習(xí)法等。如果將語句視為不同字符串的集合,可利用基于規(guī)則的方法進(jìn)行分詞(如正向或逆向最大匹配法)[60-62]。
將語句視為上下文聯(lián)系緊密的單字組合、相鄰的字出現(xiàn)次數(shù)越多則構(gòu)成詞的概率越大時(shí),可采用基于統(tǒng)計(jì)概率的語言模型進(jìn)行分詞[63-64]。當(dāng)把分詞作為一個(gè)序列標(biāo)注問題,根據(jù)上下文將語句中的每個(gè)字進(jìn)行分類標(biāo)注時(shí),常用到能夠記錄更深遠(yuǎn)上下文信息并采用非線性擬合的深度學(xué)習(xí)方法,以及與其他方法結(jié)合的方法[65]。當(dāng)把句子中的一些詞作為領(lǐng)域?qū)S迷~時(shí),也可通過實(shí)體識(shí)別的方法將這些詞標(biāo)記或分割出來,特別是詞典中不包含的新詞的識(shí)別,達(dá)到一定程度的分詞效果[66-67]。分詞技術(shù)在中文語言處理領(lǐng)域發(fā)展較為成熟,研制了多種分詞軟件平臺(tái)或工具。
如中醫(yī) 藥 文 本 分 詞 用 到 的 Jieba[68]、盤 古[69]、NLPIRICTCLAS[70,71]、StanfordSegmenter[72]、Rwordseg[73](基 于ICTCLAS)、THULAC[74]、Pkuseg[75]等。中醫(yī)藥文本分詞的研究對(duì)象包括現(xiàn)代文獻(xiàn)和臨床數(shù)據(jù)、中醫(yī)古籍以及問答系統(tǒng)的用戶問題等[68,69,75-77],其目的包括建立醫(yī)療信息平臺(tái)或知識(shí)圖譜、搜索、推薦、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)、情感分析、自動(dòng)問答、文本分類等[13,62,63,68,78]。綜上所述,根據(jù)分詞原理不同其方法也不同,并隨技術(shù)進(jìn)步不斷更新,但它們各有優(yōu)缺點(diǎn),很多成熟的分詞工具都結(jié)合了多種分詞方法。目前一些實(shí)體識(shí)別技術(shù)直接略過了分詞階段,如基于預(yù)訓(xùn)練模型的方法,其深層結(jié)構(gòu)可以根據(jù)長(zhǎng)距離的文本上下文自主學(xué)習(xí)語義特征,因此分詞技術(shù)未來在某些知識(shí)圖譜構(gòu)建場(chǎng)合將可能不再被需要。
2.2.2 實(shí)體識(shí)別命名實(shí)體
(Named Entity)是具有一定意義的文本片段,如人名、地名、機(jī)構(gòu)名、日期、時(shí)間等[79],簡(jiǎn)稱為實(shí)體。中醫(yī)藥領(lǐng)域的實(shí)體一般包括醫(yī)家信息、患者信息、疾病名、癥狀名、證候名、方劑名、中藥名及其他中醫(yī) 術(shù) 語[19,3,80]。
命 名 實(shí) 體 識(shí) 別 (Named EntityRecognition,NER)是自然語言處理、知識(shí)抽取和機(jī)器問答領(lǐng)域的重要任務(wù)之一,是實(shí)體關(guān)系抽取、實(shí)體消岐、知識(shí)存儲(chǔ)等其他任務(wù)的基礎(chǔ),其主要的工作是確定實(shí)體的類型與邊界,也常作為序列標(biāo)注問題來解決[81]。由于漢語,特別是中醫(yī)古籍中的詞缺乏自然邊界,詞性也不像英語單詞那樣可快速識(shí)別,因此實(shí)體識(shí)別往往與自然語言處理的另一項(xiàng)任務(wù)分詞密不可分。中醫(yī)藥領(lǐng)域?qū)嶓w識(shí)別方法在 2018 年前以基于規(guī)則的方法[82]、基于統(tǒng)計(jì)的方法為主,且大多單獨(dú)使用,同時(shí)也有文獻(xiàn)對(duì)這些方法的效果進(jìn)行了對(duì)比實(shí)驗(yàn)[83]。2018年后深度學(xué)習(xí)法逐漸在實(shí)體識(shí)別中普及,并且各種方法被改進(jìn),或被結(jié)合、組合使用以彌補(bǔ)各自的不足、提高實(shí)體識(shí)別的準(zhǔn)確性和效率,尤以BiLSTM-CRF方法使用最多[12,84]。
中醫(yī)藥實(shí)體識(shí)別方法緊跟計(jì)算機(jī)技術(shù)和自然語言處理技術(shù)的發(fā)展步伐,最近幾年流行的更復(fù)雜、識(shí)別能力更強(qiáng)、使用前訓(xùn)練時(shí)間更少的預(yù)訓(xùn) 練 模 型(如 Bidirectional Encoder Representationsfrom Transformers, BERT)也已開始出現(xiàn)[85]。從數(shù)據(jù)來源看,中醫(yī)藥領(lǐng)域的實(shí)體識(shí)別針對(duì)古籍、現(xiàn)代文獻(xiàn)資料等,尤其是古今醫(yī)案、病歷,這可能是因?yàn)獒t(yī)案、病歷中用于引導(dǎo)識(shí)別的關(guān)鍵字詞、特征字詞相對(duì)更多,并且上下文聯(lián)系比純理論的中醫(yī)文獻(xiàn)要緊密,有利于如隱形馬爾可夫模型(Hidden Markov Model, HMM)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)這類需要依靠上下文信息來抽取實(shí)體的方法發(fā)揮優(yōu)勢(shì)。同時(shí),相對(duì)于理論著作,醫(yī)案/病歷文獻(xiàn)資料在數(shù)量上更多,特別是現(xiàn)代電子病歷的獲取相對(duì)容易,記錄較完善,用語接近現(xiàn)代漢語,格式更規(guī)范,整理、存儲(chǔ)與挖掘利用的需求與價(jià)值更大[86,87]。除用于構(gòu)建知識(shí)產(chǎn)品時(shí)獲取知識(shí),實(shí)體識(shí)別在中醫(yī)藥領(lǐng)域還用于在文本挖掘、診療系統(tǒng)、知識(shí)發(fā)現(xiàn)、檢索系統(tǒng)、問答系統(tǒng)、診療系統(tǒng)中對(duì)人機(jī)交互內(nèi)容關(guān)鍵信息的提取[2,25,88]。
3 中醫(yī)藥領(lǐng)域關(guān)系型知識(shí)的應(yīng)用
根據(jù)知識(shí)組織與存儲(chǔ)方式的不同,中醫(yī)藥領(lǐng)域知識(shí)可分為關(guān)系型和非關(guān)系型。Mueller[97]認(rèn)為關(guān)系型知識(shí)是關(guān)系的集合,將知識(shí)定義為一組描述事物的關(guān)系(即將知識(shí)形式化為關(guān)系,這里僅指二元關(guān)系 R( x,y )或xRy),而基于關(guān)系可以進(jìn)行知識(shí)發(fā)現(xiàn)和推理等。知識(shí)圖譜是一種包含節(jié)點(diǎn)與邊,以三元組來表示和存儲(chǔ)知識(shí)的多關(guān)系網(wǎng)絡(luò)圖,因此中醫(yī)藥領(lǐng)域知識(shí)圖譜也是關(guān)系的集合。
目前中醫(yī)藥領(lǐng)域的關(guān)系型知識(shí)主要以本體[98]、語義網(wǎng)絡(luò)[99]或知識(shí)圖譜[100]等知識(shí)庫的形式組織與存儲(chǔ)。與傳統(tǒng)知識(shí)的應(yīng)用不同,關(guān)系型知識(shí)的應(yīng)用更注重“關(guān)系”在檢索、挖掘、推理等應(yīng)用中發(fā)揮的作用,如基于關(guān)系的檢索可以得到與檢索關(guān)鍵詞相關(guān)的多層次樹形結(jié)構(gòu)的知識(shí)。目前中醫(yī)藥領(lǐng)域關(guān)系型知識(shí)的應(yīng)用包括信息檢索[13]、知識(shí)挖掘[101]、診斷推理[20]、方劑推薦[102]、智能問答[4]以及知識(shí)可視化[7],其最終目的是為了展示、分享和發(fā)現(xiàn)知識(shí),以更好地傳承、發(fā)展中醫(yī)藥知識(shí)及輔助診療過程。在上述應(yīng)用中,采用了多種關(guān)系型知識(shí)挖掘與推理的關(guān)鍵技術(shù),包括基于規(guī)則的推理[20]、垂直搜索[103]、模板問答[104]、圖搜索[15]、圖模式匹配[105]、相似度計(jì)算[106]、鏈路預(yù)測(cè)[12]、路徑推理[12]、關(guān)聯(lián)規(guī)則[106]與機(jī)器學(xué)習(xí)[107]、深度學(xué)習(xí)技術(shù)[23]等。同時(shí),目前被用于中醫(yī)藥領(lǐng)域關(guān)系型知識(shí)挖掘與推理的關(guān)系不僅有中醫(yī)藥主要概念或?qū)嶓w間的領(lǐng)域?qū)S嘘P(guān)系,也有通用型關(guān)系[102]。在進(jìn)行知識(shí)展示、挖掘或發(fā)現(xiàn)時(shí),輸入的關(guān)系覆蓋類型越多,可獲得的信息也就越豐富,挖掘或發(fā)現(xiàn)的結(jié)果也會(huì)更加準(zhǔn)確與可靠,但同時(shí)也將不可避免地面臨某些關(guān)系的數(shù)據(jù)稀疏、計(jì)算或?qū)ふ易顑?yōu)方案的效率降低等問題。
4 討論
4.1 存在的問題
盡管多個(gè)子領(lǐng)域都已開展知識(shí)圖譜的構(gòu)建與應(yīng)用研究,但依然存在如下問題:①缺少集中管理、高度共享的語料庫。所用數(shù)據(jù)各有來源,大量數(shù)據(jù)的人工標(biāo)注及訓(xùn)練語料準(zhǔn)備也是各自為戰(zhàn),重復(fù)標(biāo)注語料的工作導(dǎo)致了人力和資源的浪費(fèi),缺少共享的語料庫。②中醫(yī)藥古籍文本的知識(shí)抽取的研究有待加強(qiáng)。由于中醫(yī)藥古籍文本的知識(shí)抽取存在缺乏自然分詞邊界、名稱不統(tǒng)一、修飾辭眾多等諸多難點(diǎn),目前該領(lǐng)域知識(shí)抽取的數(shù)據(jù)來源大多為現(xiàn)代文獻(xiàn)。面向古漢語文獻(xiàn)知識(shí)自動(dòng)抽取的相關(guān)研究也比較少[108],少量研究工作也僅基于單一古籍和單一方法(主要是條件隨機(jī)場(chǎng)(Conditional Random Fields, CRF)),其方法的可移植性與通用性未經(jīng)過驗(yàn)證。這使得進(jìn)行中醫(yī)古籍文本的知識(shí)抽取研究時(shí),可借鑒的成功經(jīng)驗(yàn)很少,可重復(fù)利用的資源嚴(yán)重匱乏。③知識(shí)產(chǎn)品的共享與復(fù)用需要更多嘗試。
大部分中醫(yī)藥子領(lǐng)域是能共用部分或全部術(shù)語體系的,并且古籍或現(xiàn)代文本的語法特征和抽取方法也相近,共享知識(shí)產(chǎn)品可以通過直接提取、復(fù)用和融合等方式加快新產(chǎn)品的研究進(jìn)度,也可以作為知識(shí)抽取新方法探索的訓(xùn)練語料,或支撐下游技術(shù)研究和應(yīng)用系統(tǒng)研制。④技術(shù)細(xì)節(jié)處理復(fù)雜。知識(shí)圖譜構(gòu)建和應(yīng)用過程中的多個(gè)環(huán)節(jié),都可能用到復(fù)雜的數(shù)學(xué)、計(jì)算機(jī)、信息處理等領(lǐng)域技術(shù),特別是當(dāng)前人工智能高速發(fā)展的時(shí)期,性能較好的技術(shù)或方法往往也意味著細(xì)節(jié)復(fù)雜、實(shí)現(xiàn)難度較大,對(duì)進(jìn)行相關(guān)研究而又非計(jì)算機(jī)專業(yè)的中醫(yī)藥領(lǐng)域?qū)W者是一項(xiàng)巨大挑戰(zhàn)。
5 小結(jié)
當(dāng)前大數(shù)據(jù)和知識(shí)爆炸時(shí)代,知識(shí)圖譜已成為各領(lǐng)域知識(shí)工程基礎(chǔ)建設(shè)的重要方向。中醫(yī)藥是中華民族傳統(tǒng)文化的寶藏,將包括古籍文本在內(nèi)的巨量中醫(yī)藥知識(shí)轉(zhuǎn)化為適應(yīng)現(xiàn)代知識(shí)傳播、分享、處理和利用方式的圖譜形式存儲(chǔ)起來,并盡可能減少信息損失、保留知識(shí)原意,對(duì)中醫(yī)藥文化的傳承與創(chuàng)新發(fā)展有著不可估量的積極作用。知識(shí)圖譜在中醫(yī)藥領(lǐng)域應(yīng)用前景廣闊,其構(gòu)建與應(yīng)用方法隨著認(rèn)知智能各項(xiàng)關(guān)鍵技術(shù)的進(jìn)步會(huì)逐漸變得更加智能化、平臺(tái)化、簡(jiǎn)單化,將為中醫(yī)藥行業(yè)知識(shí)的深度應(yīng)用做出更大貢獻(xiàn)。
作者:曾子玲1,張華敏2,于 彤1,劉思鴻1,張 磊1,高宏杰1,陳廣坤1,佟 琳
Take the first step of our cooperation邁出我們合作第一步