時間:2021年05月22日 分類:科學技術論文 次數:
摘要隨著人工智能的快速發展,知識圖譜已成為商業和學術界研究熱點,但目前知識圖譜種類繁多,應用場景也各有差異。文章構建非物質文化遺產知識圖譜模型,分析區域非物質文化遺產知識圖譜的應用。非物質文化遺產知識圖譜構建能展現地域、文化類型與非物質文化遺產之間的關聯關系,形成非物質文化遺產數據關聯,并通過關系查詢呈現非物質文化遺產隱性關系。
關鍵詞非物質文化遺產;知識圖譜;知識建構
人工智能及大數據的快速發展為非物質文化遺產(以下簡稱“非遺”)傳承與保護供了平臺,而如何在繁雜的數據中對非遺進行搜索,以可視化方式呈現非遺之間關聯關系是研究熱點。知識圖譜是非遺可視化主要應用工具,相關技術為互聯網時代的知識組織和知識可視化提供支撐[1]。
傳統的知識圖譜在非遺領域的應用存在不足,主要表現為信息碎片化嚴重、知識耦合度不高、知識關聯性不強,限制了非遺知識可視化的呈現效果。本文以RDF三元組為描述框架表述區域非遺知識結構及數據關聯,為碎片化區域非遺數據資源統一建模、存儲及可視化過程;以區域非遺項目構建平臺為例,將非遺知識進行識別、抽取、表示等,以構建可視化知識平臺。
1文獻綜述
知識圖譜是以圖可視化方式呈現知識之間關聯關系的技術[2]。2012年谷歌首次提出知識圖譜技術,通過搜索詞條向用戶展示相關詞條或關鍵字的相互關系,快速發現信息和知識[3]。目前成熟的知識圖譜應用有Freebase[4]、Wikidata[5]等。知識圖譜在非遺領域的應用較廣泛,但多數是本體和語義關系應用。美國國家網絡化文化遺產倡導組織專門從事非物質文化數字建構,如語義信息架構、語義關系、關鍵字索引呈現、文化內容數字化重構[6]。
歐洲數字博物館較早采用語義網技術,通過分散、異構的數字文化資源語義關聯,將不同機構、元數據標準信息資源進行統一,針對非遺資源從知識表示、資源描述、本體的構建到數據的關系實現非遺資源多維度可視化呈現,成為歐洲重要的文化資源平臺[7]。
Vincenzo等設計戲劇文化本體模型,包含戲劇實體、數據結構、描述框架,利用這些實體模型構建具有人物情感及意圖的可視化圖譜[8]。Valentina提出利用知識圖譜RDF技術將意大利非遺進行編碼分類,最終以SPARQL語言查詢、檢索非遺之間的關聯關系[9]。這一系列應用開啟非遺資源數字化傳播的新時代。針對不同非遺文化分類及呈現形式,國內一般聚焦非遺數字化和語義關系研究。
談國新等運用知識表示、知識工程等技術構建民俗舞蹈知識框架模型,為民俗舞蹈數字化保護提供借鑒[10]。上海圖書館推出的家譜知識庫、古籍循證平臺、名人手稿知識庫等數字非遺項目以關聯數據技術和本體建構作為核心技術,實現知識可視化[11]。梳理知識圖譜應用現狀,發現基于關聯數據的資源整合集中應用在網絡信息資源、數字圖書館等領域,呈現出從理論研究轉向應用研究的趨勢,出現大量項目[12]。
非遺知識庫的建立是為了通過語義檢索,可視化呈現非遺之間關聯關系[13]。目前非遺數字化的建構應用豐富,主要表現在本體、語義關系、數據關聯、資源聚合等方面。綜合國內外研究,利用語義關系建立關聯數據,使其成為本體構建的一部分,是知識圖譜研究的熱點。
國內基于知識圖譜的研究集中在數字人文語義網、數據關聯構建,但面對非遺知識圖譜構建、搜索及可視化呈現等研究不足,缺乏對非遺領域知識服務的深層理解和應用。知識圖譜構建是非遺數字可視化呈現重要組成部分,不僅涉及語義知識分析、表述框架的設計,知識的表示方法,還包括人物關系的呈現、知識的推理等復雜環節。本文針對以上局限,以非遺知識圖譜構建為創新點,探索區域非遺數字可視化應用研究。
2非遺知識圖譜模型構建
目前我國非遺數字化資源保護取得一系列進展,也面臨問題:一方面資源入庫信息零散,關聯少;另一方面非遺資源庫缺少統一建設,未實現跨平臺、跨系統,難以實現多源異構數據的高效檢索和可視化呈現。知識圖譜技術為解決此問題提供契機,基于非遺知識圖譜的知識構建與檢索可以實現非遺數據異構的共享、語義檢索、自動問答與可視化呈現等智能應用。
本文從非遺信息內容、類型、呈現形式,區域分布等著手,對非遺數據從知識構建、知識存儲、知識管理到知識應用,構建以區域分布為特征的非遺知識庫,以解決非遺數字化資源耦合度不高、關聯性不強、低響應高延時等缺點。在語義搜索方面,以RDF為描述框架,對非遺資源實體、屬性進行描述,揭示非遺語義關系,形成非遺數據關聯,便于網絡檢索和數字化傳播。
2.1知識建構
知識建構研究可以追溯到人工智能早期,M.ROSSQuillian[14]和AllanM.Collins[15]提出關于網絡知識建構方法。知識建構實際是知識圖譜表示,是指選擇一種合適的語言對圖譜進行建模,描述實體間的語義關系,以方便網絡計算機識別計算。從知識提取的角度來講,知識建構包括對實體的識別、知識表示、關系的抽取。
2.1.1實體識別
實體識別是非遺文本數據源獲取知識的重要組成部分,命名實體是一個詞或一個短語,可以在具有相同或相似的屬性中標識一個事物[16]。對命名實體識別(NER)的規則是相同或相似事物集合的過程。在計算機中命名實體識別的方法有深度學習和機器學習兩種方法。
在非遺知識圖譜建構中,本文采取基于深度學習的NER方法,其方法是將非遺中的文本構建為自然語言處理的文本序列標注問題,以方便從非遺相關文本中提取語義信息。深度學習中常用架構是LSTM-CRF模型,其主體結構是長短時記憶網絡與條件隨機場(CRF)相結合而形成。
由嵌入層、雙向LSTM層和CRF層組成。在嵌入層,網絡信息的輸入為通過預先字詞one-hot編碼,將其轉化為向量輸入網絡嵌入層,通過嵌入層處理得到相應信息嵌入向量。在雙向LSTM層,有正負向量層(對應li和Ri層)和信息加工Ci層,li和Ri層分別計算輸入編輯對應向量信息,Ci層是將整合li和R的信息并進行解碼輸出。在CRF層對輸入信息進行序列標注。
2.1.2知識表示
知識表示是對現實世界的一種抽象表達。一個知識表示載體應具有較強的表達能力,使計算機執行求解過程精確且高效。在計算機中,知識表示通常由符號和數值組成,關聯圖表示實體間關系,標量、概率等數值有助于刻畫知識更深層次的細節。在知識圖譜中,語義網絡、RDF三元組、實體關系圖均是知識表現的形式,圖模型是知識圖譜的邏輯表達方式,是人們最容易理解的一種知識表示,其基本思路是將知識圖譜中的點與邊表達成數值化向量。
在知識圖譜中,每一個事實都用一個三元組來表達,即頭實體(headentity),關系(relation),尾實體(tailentity)。將其定義一個三元組(h,r,t),其中h和r分別表示實體和關系的向量,根據TransE模型假設,當h+r≈t,事實(h,r,t)成立,反之則反。基于這一思路推出以TransE模型損失函數,TransE模型損失函數是用實體和關系的分布式向量表示。
2.1.3知識抽取
非遺數據主要由非結構化、結構化、半結構化等類型構成。結構化數據本身就已存在數據庫中,知識組織計算機能夠識別,抽取簡單,只需將關系數據中知識直接映射或轉換映射為RDF數據。半結構化數據是從Web信息中自動或手動提取網頁內容,這類數據不符合關系數據庫的存儲規則,但有標簽及語義元素標記。非遺互聯網數據越來越豐富,半結構化信息抽取也是非遺知識獲取的重要來源。非結構化抽取是從自由文本中提取知識,包括實體、關系及事件三個模塊,在抽取過程中主要基于已有的標注規則和知識庫。這是三種數據來源中難度最大的一種。
一方面,在數據收集、文本處理、實體抽取、關系抽取等各個環節都可能存在噪聲和誤差,這些因素在各個環節的傳播嚴重影響知識獲取的精度;另一方面,數據來源多種多樣,數據復雜多樣使得處理困難。在處理非結構化數據時采用API接口技術,允許用戶根據規則抽取文本信息實體與關系,以確保非遺知識圖譜構建的準確性。實體抽取目的是從非遺文本中抽取實體信息,如非遺項目名稱、傳承人、區域、時間,遺產類別。
實體抽取一般先從文本中識別和定位實體,然后再將實體分類到預定義的類別中。例如,“湖北省政府于2020年,公布第六批荊楚非物質文化遺產目錄”,“湖北省政府”、“2020年”、“荊楚非物質文化遺產”根據規則抽取為實體。關系抽取是抽取兩個實體間的語義關系,在非結構化數據中,關系抽取與實體抽取密切聯系。在關系抽取中,先行找到三元組實體主體或客體,然后用句子信息填充的三元組其他部分,填充部分則是實體間關系。
關系抽取是非結構化數據關鍵,目前基于關系抽取的方法有模板關系抽取、監督學習關系抽取。針對非遺數據,采用基于監督學習抽取方法。基于監督學習的關系抽取是從知識庫中找出具有實體與屬性的句子,以構成訓練集,通過訓練集形成分類器,在大量的分類標注數據樣本中,對輸入信息進行加工,以建立關系分類。基于監督學習的關系抽取重點是訓練語料,包括語料獲取和分類器語料優化。早期的知識抽取方法包括基于規則的關系抽取、詞典驅動的關系抽取、本體的關系抽取[17],這些關系抽取描述語句并不強,正確率低。為提高其準確率,在關系抽取中設定關系關鍵詞。
例如,在非遺中,“遺產地區”關系可以為“位于”、“坐落”等。“遺產發源時間”關系表達的關鍵詞可能是“起源”、“建立”、“設立”等。因此,在知識庫中的關系名稱是單一的,但在網絡資源中對應的關系語言表達是多種方式。如果在關系抽取中直接匹配,會降低關系抽取的精度,而引入關系關鍵詞可以很好解決這一問題。分類器語料優化與人工標注不同,人工標注往往會導致遺漏或錯誤,且只能用于簡單的知識圖譜關系抽取中,分類器語料優化是將非遺文本已標標語料設為正例,將未標注語料設置負例,按此算法反復迭代,最終完成文本分類。
2.2知識存儲
非遺資源包含大量數據,這些數據具有關聯性和靈活性,如何將這些數據有效表示和存儲是知識圖譜應用的關鍵。以傳統文件或關系數據庫存儲的知識圖譜越來越難應用在非遺中。基于新型知識圖譜的圖數據庫框架、數據模型及管理模型的設計和選型都是大規模數據存儲的關鍵。
3區域非遺知識圖譜的應用
3.1非遺知識庫展示平臺
非遺知識圖譜需要多源渠道形成非遺數據知識庫,以知識抽取和融合技術構建[24],RDF技術將非遺數據轉換到圖數據庫中以提供鏈接、共享及查詢等操作。
數據的獲取。非遺信息組織,文本和圖片資源收集是數據獲取的第一步,非遺種類繁多,有傳統舞蹈、傳統音樂、曲藝、民間文學、手工美術等。本文以地區非物質文化遺產及中國非物質文化遺產數字博物館資源為基礎,收集地區非遺基本信息,構建區域非遺知識圖譜知識庫。信息獲取來源:一是湖北區域非遺申報相關數據,二是通過python技術提取網絡數據,最后對數據進行預處理,剔除無效數據。
知識抽取。非遺數據獲取后,需對現有數據的知識和關系進行抽取,以建構其非遺知識庫。知識抽取方法很多,有結構化、半結構化和非結構文本抽取,對非遺領域文本數據采用非結構化抽取,對網頁和數據庫數據采用結構化和半結構化抽取。知識存儲。前面對非遺知識獲取加工后,本文按知識圖譜的存儲規則將其知識轉換成RDF三元組存入知識庫。在存儲過程中,本文采用分布式存儲技術和分塊管理來保證非遺知識圖譜使用效率。
3.2用戶語義搜索
與互聯網中的檢索不同,非遺知識圖譜是處理粒度更細的語義數據,原有算法很難應用到非結構化的實體和關聯數據中。知識圖譜查詢與檢索是通過語義模型建構,包括語言學模型和概念建模。其中語言學模型主要以詞語關系建模、分類及同義詞庫,而概念模型主要是語法元素如主、謂、賓等進行映射。同時語義建模的解析過程必須是可以計算。在龐大的非遺知識庫中,語義搜索采用形式化結構,如在知識圖譜的關系庫中,采用RDF和OWL模型,這些RDF數據與非遺文檔形成了關聯。
4結語
在大數據時代,知識圖譜的發展為非遺資源可視化研究提出新的方向。本文從知識圖譜的理論構建、知識建構、知識存儲等方面進行深入分析,指出知識建構包括實體識別,關系抽取及知識表示等三種建構過程。在知識的存儲管理中詳細分析存儲的架構,當前數據存儲的主要模型及存儲管理方式。此外,本文提出知識圖譜在區域非遺的建構模式,目前已得到湖北非遺保護相關單位的大力支持。論文以非遺知識數字化保護為契機,通過構建區域非遺知識庫平臺,運用知識圖譜相關技術展示各區域不同類型非遺。
非物質文化遺產論文投稿刊物:圖書情報工作(半月刊)創刊于1956年,由中國科學院文獻情報中心主辦。創刊以來,《圖書情報工作》始終恪守理論與實踐相結合、弘揚學術精神、推動事業發展的辦刊宗旨。
雖然本文對知識的理論和應用研究還比較粗淺,但將知識圖譜的相關理論應用到區域非遺資源的數字化呈現是本文研究的重點,以期為今后非遺數字化保護提出研究參考。當然,本文的研究也存在一些不足之處,其研究的廣度和深度還有待進一步拓展。首先,本研究應從非遺的數量上進一步拓展,以豐富非遺三元組知識庫。其次在知識抽取的模型設計中,應該深入分析比較不同的抽取算法的執行效率,以提高圖計算能力。
參考文獻
[1]徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術綜述[J].電子科技大學學報,2016,45(4):589-606.
[2]SinghalA.IntroducingtheKnowledgeGraph:Things,notStrings.OfficialGoogleBlog,May2012[J].2018.
[3]劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(3):582-600.
[4]BOLLACKERK,COOKR,TUFTSP.Freebase:ashareddatabaseofstructuredgeneralhumanknowledge[C]//Procofthe22ndAAAIConfonArtificialIntelligence.MenloPark,CA:AAAI,2007:1962-1963.
[5]WMF.Wikidata[EB/OL].[2015-11-11]. https://www.wikidata.org/wiki/Wikidata:Main_Page.
[6]CowieJ,LehnertW,Informationextraction[J]CommunicationsofthdACM,1996,39(1):80-91.
[7]王萍,黃新平.基于關聯開放數據的數字文化資源語義融合方法研究——歐洲數字圖書館案例分析[J].圖書情報工作,2016,60(12):29-37.
[8]LombardoV,PizzoA,DamianoR.Safeguardingandaccessingdramaasintangibleculturalheritage[J].JournalonComputingandCulturalHeritage(JOCCH),2016,9(1):1-26.
作者:范青,史中超,談國新