時間:2020年01月18日 分類:電子論文 次數:
摘要:基于電力大數據體系信息的爆炸式增長,挖掘其深度價值,本文在結構化表達和特征提取與分析等方面提出文本分析新方法。針對電力運維領域文本特征設計基于拼音統計的中文詞向量生成模型;采用卷積神經網絡和條件隨機場組合模型對中文詞分類;通過結構化語義槽填充,以詞頻和詞向量特征在事故多因素類內和類間進行統計分析和事件關聯。模型語義理解準確率達到51.93%,中文實體詞識別F1分數達到72.52,均取得了解析能力更強、精度更高的結果。最后對電力運維日志語料進行實例測試,驗證了本方法的性能優勢。
關鍵詞:文本挖掘;中文詞向量;命名實體識別;結構化處理;語義相似度
隨著互聯網信息化數據爆炸式的增長,基礎性公用事業企業也將面臨向管理智能化的模式升級。電網內部每天產生的大量的日志信息蘊含了巨大的潛在價值,面對龐大且冗雜的企業級文本數據資產[1-2],通過對文本特征提取、統計聚類和關聯等進行信息處理,通過數據分析并高效獲取相關設備網點運營狀況,發現潛在的危險和隱患。在第一時間能夠對異常事件做出響應,是提升運維管理水平的關鍵。基于結構化表達的電力運檢文本分析方法作為一種新的事故預控分析模型,從特征采集、數據結構化表達、統計分析等模塊,解決了領域內諸多問題。
主要包括:1)海量雜亂的非結構文本難以直接挖掘有效信息,良好的詞向量[3]生成模型是對中文文本數字化應用的頭部環節;2)專業領域文本年數據存在大量專業化短語,需要依靠人工篩選本體字典,良好的特征提取和分類模型是文本分析的關鍵;3)電力運維記錄事故發生是多因素影響,同步挖掘單因素特性和多因素關聯進行綜合判斷才能深入分析。雖然基于結構化表達的文本分析方法仍依賴人工特征和領域知識,但其技術方案是一個非常重要和關鍵的研究問題。
1中文文本分析
1.1詞向量表達
詞表示技術是對文本數據的一種表示能力,在特征工程或機器學習領域,都處于底層預備工作,它的好壞對模型的應用性能將產生很大的影響。這種數據表示方法在一定程度上能夠自主無監督的從海量數據中直接挖掘到有用的語義信息。詞表示的理論基礎是Harris等在1954年提出的分布假說。近年來,詞表示方法逐漸區別于傳統的one-hot詞編碼方式,都是通過低維分布式詞向量去捕捉文本的語義信息,同時更多關注于基于上下文信息[4-5]來學習詞向量的表達和更高細粒度字符級特征表達[6-7]。
對于中文詞向量表達,在形態學表達和生成表達方面分別由筆劃和拼音字符構成,大部分現有研究均是由拉丁文衍生而用于中文,不能與中文輸入習慣完全適應。同時隨著中文文本數據源的規范化和結構化程度隨著信息數據增長不斷退化,錯別字等問題的出現成為了亟待解決的任務。
1.2命名實體識別
中文命名實體識別[8-9]是在自然語言文本中識別出具有特定意義的實體詞并加以分類,主要類別包括人名、地點、組織名、設備名等。與英文命名實體識別相比,中文存在更多的難點,如:中文句子序列間沒有明顯的分隔標識;中文實體詞的組成更為復雜,存在著多種實體交疊包含的情況等。近年來解決中文命名實體識別的主流方法是基于機器學習和統計,如隱馬爾科夫模型(HMM)[10]、支持向量機(SVM)[11]和條件隨機場(CRF)[12]等,其性能表現依賴于中文特征的選擇。
中文命名實體識別需要對復雜實體詞進行拆解,對句子序列進行切分、識別和分類。Lamlpe等人[13]針對任務的不同階段,提出了雙向長短期記憶模型和條件隨機場模型。上述方法雖然已經解決了一些應用問題,但仍然依賴大量的人工特征,沒有充分利用文本深度語義信息。
此外,中文實體詞的片段級復雜結構提取[14]也需深入研究。針對電力運維文本的冗雜表達和海量多類別關鍵詞提取分析的問題,本文采用拼音字符級信息作為特征,以命名實體識別和結構化語義槽模型共同提取關鍵實體詞,并在詞頻和詞向量維度上進行因素統計和語義關聯分析。最后通過在采集的運維數據集以及公開數據集上進行定量和應用例實驗,驗證方法的有效性。
2結構化文本處理方法
2.1詞向量生成模型
中文文本在生成表達方面主要由拼音字符構成。針對中文語言結構在數量上包含較少的字符級信息,而細粒度更高的字符級往往在詞向量表示中性能優越的特點,構造基于拼音特征統計的詞向量模型。對中文詞轉化拼音表達,以不同長度n(n可取3、4、5...)大小的窗口在一個詞語拼音表示上滑動,構成局部拼音表示組Px。
2.2中文實體關鍵詞識別
中文實體采用組合卷積神經網絡對文本提取字符級特征并進行實體詞提取,條件隨機場在全局范圍分類。
3實驗及結果分析
3.1實驗數據與實驗設置
測試數據采集了維基百科中文語料庫和某電力公司2017年運維檢修日志(取60000條)作為通用和專業領域語料。將全部語料用于中文詞向量模型的訓練,專業領域語料庫用于實體詞識別和文本分析應用例實驗。語料數據采用opencc將轉化為簡體中文,采用JIEBA進行分詞處理,pypinyin提取中文詞語的拼音字符級表達。
研究發現詞向量維度將對模型性能產生影響,實驗中將其設置為200維。對實體詞生成向量表示時,取交疊中文詞平均向量作為實體詞向量。若含有數字表示,將數字與文本表示向量組合構成實體詞向量。
3.2評價指標及結果分析
通常詞向量性能判別模型采用詞間語義相似度和類比推理準確率作為標準,語義相似度反應不同詞之間的主觀語義理解差異,類比推理能夠反映詞之間的語義對應關系。引入拼音這種高細粒度字符特征的詞向量模型能夠有效的獲取更多語義信息。此外中文拼音表達形態學上接近拉丁文字的結構,使最小語義單元的字符信息在數量上和結構上包含了更多的語義信息。
CNN-BiLSTM-CRF模型在電力運維語料上進行事故多因素片段級命名實體識別的結果。結合字典在大規模未標注數據的電力運維語料中使用py2vec和基于拼音特征的CNN-BiLSTMCRF的識別分類網絡對片段級文本識別達到了72.52%的F1分數,獲得了更好的效果,對于文本語義結構化重構將在人工篩選方面起到更多的作用。
3.3實證研究
以某電力公司運維日志語料為例,對文本進行預處理后以py2vec生成詞向量,并采用CNNBiLSTM-CRF組合網絡提取語料6類實體關鍵詞,分別為:人名、地名、組織名、設備名、因素名和其它。根據詞序距離和詞性組合成中文實體詞。以“故障原因”為例,通過Python詞云可分析得到可視化結果。
多類實體詞統計分析研究基于詞頻統計、聚類和多因素關聯分析等3個層面,在維度上分析多類因素的單一維度內部和多維度之間的統計和語義關聯特性。單因素統計特征通過因素表進行6種因素的詞頻統計;由于事件發生因素的關聯性,多因素類間關聯以差異類間詞語的共現特征統計詞頻分布,分別篩選出統計特征前15的因素作為監測目標。
運維日志“故障設備”因素中“漏電流保護裝置”和“低壓開關”等頻數較大,應為主要關注目標以降低事故發生概率;“故障線路-故障原因”多因素中“余家”地區的“用戶設備漏電”發生頻率較高,應為重點監控對象;由于時間維度事故發生存在一定的規律性和周期性,在“時間-故障原因”統計中,如統計反映主要故障原因之一“用電過負荷”驗證了實際相符。
由于統計模型往往存在人工記錄的重復性、不規范等因素,研究因素詞向量特征能夠有效的規避此類問題。同時將語義距離引入統計分析中來,能夠挖掘運維語料文本中深度信息。在多類因素語義關聯應用中,利用單因素圖譜的關聯表達方式,建立各個項目內部關系的樹狀圖,同時在多類因素之間利用語義詞向量表達構建詞語串組的關聯表達方式,建立了各因素的外部關系結構。
4結論
本文主要研究基于自然語言處理的電力運維文本結構化表達和分析方法。通過針對文本特性設計詞向量生成方法并針對文本結構設計多類語義槽,以CNN-BiLSTM-CNN組合神經網絡識別命名實體關鍵詞。并針對所提取的多類實體詞以詞頻和詞向量特征在單一因素類和多類之間統計分布特征和語義關聯特性。能夠有效的解決非結構化運維文本的統計分析和語義理解問題,高效的實現運維大數據價值轉化。但是對于中文長實體詞的復雜組成問題仍然存在,因此通過神經網絡對中文長實體詞的片段拆分仍需進一步研究。
參考文獻:
[1]劉義德,梁堅.智能電網大數據處理技術現狀與挑戰[J].科技創新與應用,2015(29):184.
[2]薛禹勝,賴業寧.大能源思維與大數據思維的融合(一)大數據與電力大數據[J].電力系統自動化,2016,40(1):1-8.
[3]唐明,朱磊,鄒顯春.基于Word2Vec的一種文檔向量表示[J].計算機科學,2016,43(6):214-217.
電力工程師論文范文:電力建設工程施工過程風險的可拓優度評價
改革開放以來,我國的各行各業得到了蓬勃的發展,建筑行業是我國城市化建設的主要支柱,其中電力建設工程施工更是對我國的電力發展貢獻了巨大的力量。由于電力建設施工過程中所涉及的人數較多,工作的內容繁雜,危險系數較大等,在施工的過程中難免會出現漏洞。但是將可拓優度評價運用與電力建設工程施工過程中,能夠有效降低施工風險,較少安全事故的發生。