時間:2020年03月20日 分類:電子論文 次數:
地層結構及其分布的模擬是地質信息化研究與工程規劃設計建造的迫切需求。現有的研究方法主要以鉆孔數據為基礎,選擇插值方法進行二維剖面繪制和三維地層建模。插值方法是決定模擬結果準確程度的重要因素,但插值方法的選取受主觀因素影響,缺乏科學合理性,難以推廣應用。針對這一問題,本文提出一種基于鉆孔數據進行機器學習的地層序列模擬方法,即將鉆孔地層數據處理為地層類型序列與地層層厚序列,利用循環神經網絡與序列-序列架構建立地層序列模擬模型。通過將模擬結果與實際鉆孔數據對比分析,發現地層序列模型可以較準確地模擬地表到基巖面之間的地層類型與厚度范圍。研究可為地層模擬提供新方法。
關鍵詞地層序列模擬;機器學習;循環神經網絡;序列-序列學習
人工智能方向論文范文:機器學習在社會調查職業編碼中的應用
內容摘要:問卷調查一般通過開放文本題采集職業信息。這種題型雖能提供豐富信息,但數據管理復雜,需要將原始數據進行編碼。傳統的人工編碼法耗時耗力。本文首次嘗試將機器學習中兩個常見分類器“樸素貝葉斯”和“支持向量機”運用在中文職業文本編碼上。結果顯示,它們在職業大類編碼上的表現令人滿意,但在職業細類上性能不足,而且在不同職業類別間性能差異很大,其中“農林牧漁水利業生產人員”和“不便分類的其他人員”的分類效果較好。
0引言
地層結構是漫長的地質作用的結果,在時空分布上表現為不均勻、不規則性等,但在宏觀上具有統計上的規律性。弄清地層結構及其規律是地質信息化的基礎,同時不良地層的分布也是工程建設的重點關注對象。如何利用有限的鉆孔資料進行地層結構及分布規律的研究,是地質學與工程地質領域中的重要課題。地層結構與分布規律的研究,鉆孔數據是基礎,它可以提供準確的地層結構信息,但是成本高,耗時長,同時具有離散性。如何有效利用有限的鉆孔數據進行地層分布規律的研究成為了人們普遍關注和探索的問題。選擇不同的插值方法連接鉆孔數據,繪制二維地質剖面或建立三維地質模型是模擬特定區域的地層情況的主要方法。其中,三維地質建模在地層構建上有多種選擇,主要分為面模型與體模型。面模型有以數字高程表征地形空間特征的DEM模型(Songetal.,2018)和以不規則的三角網格表示地層分界面的TIN模型(Watsonetal.,2015)。
體模型通過體元進行三維地層實體的構造,以三棱柱模型(Zhangetal.,2015)和四面體模型為主,還有周翠英等(2006)提出的塊體理論。無論二維剖面圖或三維地質模型,鉆孔連接的插值方法有多種選擇,如線性插值、多項式插值、反距離插值與克里金插值等,模擬效果存在差異。模型建模與插值方法的選取受主觀因素影響,具有局限性的同時缺乏科學合理性,因而無法推廣應用。如何規避主觀因素,利用智能的方法對地層分布進行模擬是地質信息化研究與工程設計建設中值得探索的問題。
機器學習近年來發展迅速,與傳統的統計學觀念相比,雖然兩者的目的都是挖掘數據中潛在的信息,但統計學手段在探索數據規律的過程中會基于經驗引入假設與建立模型,其結果具有較高的可解釋性(Breiman,2001)。機器學習手段則不對數據作假設,而是檢驗輸出與數據標簽的接近程度,通過BP(BackPropagation,誤差反向傳導)算法不斷調整參數以獲得更高的準確率。當前,機器學習被廣泛應用于不同研究領域當中,在圖像識別、語言翻譯、無人駕駛等方面取得了優秀的表現。
在地質學與工程領域,RodriguezGalianoetal.(2015)在礦產勘查中應用決策樹原理;段友祥等(2016)和Wangetal.(2017)分別利用卷積神經網絡和極限學習機(ELM)與主成分析(PCA)進行了儲層厚度的預測;季斌(2017)對比了多種機器學習算法進行了礦產預測;黃宏偉等(2017)基于深度學習進行了隧道滲漏水圖像識別;Bhattacharyaetal.(2006)和Yangetal.(2015)進行了土壤分類的研究;張濤(2016)利用多層感知器與BP神經網絡研究了化學元素與巖漿巖、沉積巖巖性及沉積巖礦物的關系;陳冠宇等(2016)、沙愛民等(2018)和程國建等(2016)分別利用卷積神經網絡判斷不良地質體、地表病害與巖石種類。
另外,Zhangetal.(2011)基于高斯過程預測巖溶塌陷;Korupetal.(2014)和闕金聲等(2016)進行了山體滑坡的相關研究。然而,目前國內外基于鉆孔數據的地層分布機器學習研究正處于起步階段,國內外相關研究少有報道。針對上述問題,本文提出一種基于循環神經網絡原理的地層序列機器學習模擬方法,它將鉆孔數據處理為地層序列數據,建立地層類型序列與地層層厚序列模型,實現基于輸入鉆孔坐標,能夠較為準確地判斷相應位置的地層信息。該方法不依賴于數據假設與專家經驗等主觀因素,通過與實際鉆孔數據對比表明,上述模型具有較好的可行性,可應用于地質信息化研究與工程規劃、設計建造等方面。
1地層序列模擬的機器學習理論基礎
1.1循環神經網絡
地質體一般呈層狀分布,具有先后關系,在空間上構成地層序列(宋仁波等,2017)。循環神經網絡(RecurrentNeuralNetworks,RNN)是用于處理序列問題的神經網絡。展示了RNN的結構,在“輸入層-隱藏層-輸出層”前饋神經網絡的基礎上,其隱藏層具有循環鏈接,每一時刻的輸出與該時刻之前的歷史輸入相關聯。
1.2地層序列導師驅動學習
RNN在每一時刻接收一個地層輸入并給出輸出。由于RNN具有“記憶性”,若當前時刻的輸入存在誤差,隨著RNN不斷的學習,誤差將會不斷累積。導師驅動(TeacherForcing)是一種任意時刻都采用正確序列作為輸入的監督學習方法,如同導師指導學生進行學習,故稱作導師驅動。然而頻繁的外界干預會影響模型對于未知數據的泛化能力,在模型訓練的過程中需要注意不同比例的導師驅動學習對模型的影響(Goodfellowetal.,2016)。
2基于循環神經網絡的地層數據重構
數據是研究的基礎。在進行學習前,需根據數據特點、問題特征以及數據體量等因素將原始數據重構為計算機程序可表示的,方便讀取利用的形式,因此進行歸一化處理、地層序列填充與地層編碼等。
2.1數據歸一化
在鉆孔數據中,坐標與地層層厚之間數量級相差較大。為了保證收斂,數據需進行歸一化處理,將取值范圍壓縮為0~1(王蕊穎等,2013;解明禮等,2016;黃震等,2017)。
2.2地層序列填充
利用RNN進行地層序列學習時,批量訓練要求所有地層序列長度相同,同時其輸出結果也是等長的,而地層層數具有多種可能。為此,引入終止標記(EndofSequence,EOS)作為虛擬地層,將地層序列填充為等長,同時作為地層序列結束的標記。在每一次訓練中,RNN輸出等長的地層序列,當終止標記出現時,采樣過程停止,取終止標記出現前的所有序列作為預測地層序列。終止標記被當作地層的一種參與學習。此外,RNN在初始時刻沒有來自上一時刻的地層信息,因此還需為地層序列添加起始標記(StartofSequence,SOS),作為RNN預測開始的信號。
2.3地層編碼
地層類別是離散的分類值,難以直接用程序表示。獨熱(OneHot)編碼任意時候只有一位被激活。將每一種地層用唯一的數字標記(劉興周,2010;溫繼偉等,2013),并利用獨熱編碼表示。
3基于循環神經網絡的地層序列模擬
3.1地層類型序列模型的建立
RNN在初始時刻沒有來自上一時刻的隱藏層狀態。坐標信息是一個地層序列中所有地層的共同屬性。在每一次訓練前,利用坐標信息對RNN進行初始狀態s0的賦值,以此使坐標指導地層序列模擬。
3.2地層層厚序列模型的建立
地層層厚序列模型需要以地層類型為基礎,連接坐標、地層類型與地層層厚等信息。因此,采取seq2iseq(sequencetosequence,序列-序列)架構,利用兩個串聯的RNN分別作為編碼器與解碼器建立地層層厚模型(Sutskeveretal.,2014;Choetal.,2014)。編碼器負責處理地層類型信息,以其最后時刻的隱藏層狀態作為解碼器的初始狀態,進而預測每一個地層類型對應的層厚區間。
3.3地層序列模型
地層層厚序列模型在訓練的過程中采用真實地層數據作為樣本,而在實際應用場景中,地層數據是未知的。將地層類型序列模型與地層厚度序列模型相連接,以地層類型序列模型的模擬結果作為地層厚度序列模型的編碼器輸入,從而完整預測地層序列。
4應用實例
4.1應用區域及其數據簡介
本文利用python語言,在Pytorch深度學習框架下進行地層序列模型的開發與驗證。研究區域位于江蘇省某市,面積約為3882平方千米。研究區域內的土體主要為砂土類、黏性土類以及粉土類,局部地層具有淤泥、淤泥質土。本文共涉及鉆孔數據1386個,全部終止于基巖面頂部。鉆孔共涉及13種地層。隨機選取150個鉆孔作為測試數據,其余用于訓練。
4.2地層模擬實驗
對地層類型模型與地層層厚模型進行500個回合的訓練,并在每次訓練結束后利用測試鉆孔數據檢驗模型的性能。隨著學習次數增多,模型的預測能力不斷增強,同時進步的速度逐漸減小。最終,地層類型準確率為65.56%,平均預測序列相似度為76.14%,地層層厚準確率為66.58%,基本滿足地層序列的模擬需求。
5結論
(1)根據機器學習理論,提出一種基于循環神經網絡的地層序列模擬方法,利用鉆孔數據中地層序列信息進行學習并給出了鉆孔數據的重構方案。經訓練,該模型的地層類型相似度可以達到79.41%,地層層厚度預測準確率可以達到71.43%,能較為準確地模擬地層情況。與傳統方法相比,機器學習手段對地層序列的模擬不需要依賴數據假設與專家經驗等主觀因素,方法上具有通用性,可為地層結構與分布研究提供新的思路與方法。
(2)通過進行不同比例的導師驅動學習,發現其有助于提升模型的預測能力,但不呈正相關。訓練過程中過多地采用導師驅動學習會影響模型的預測表現。
參考文獻
BhattacharyaB,SolomatineDP.2006.
Machinelearninginsoilclassification[J].NeuralNetworks,19(2):186-195.
BreimanL.2001.Statisticalmodeling:Thetwocultures[J].StatisticalScience,16(3):199-215.
ChenG,AnK,LiX.2016.Identificationandclassificationofadversegeologicalbodybasedonconvolutionneuralnetworks[J].GeologicalScienceandTechnologyInformation,35(1):205-211.
ChengGJ,GuoWH,FanPZ.2017.Studyonrockimageclassificationbasedonconvolutionneuralnetwork[J].JournalofXianShiyouUniversity(NaturalScienceEdition),32(4):116-122.