時間:2022年03月18日 分類:科學技術論文 次數:
摘要:由于污水處理系統一般較為復雜且受外界因素影響較多,對其進行精準調控一直是環境領域的難題之一,傳統方法無法滿足日益復雜的工程項目需求,近年來發展起來的機器學習方法為此類問題提供了一系列有效的解決方案。本文介紹了人工神經網絡、支持向量機、隨機森林等機器學習方法的特點,并從水質預測預警、污水處理系統故障診斷和智能控制三個方面闡述了機器學習方法在污水處理領域的應用,分析了機器學習方法相較于傳統方法的優勢及其應用于污水處理系統中存在的問題,展望了機器學習方法未來在污水處理領域應用的前景和趨勢。
關鍵詞:機器學習;污水處理;預測;故障診斷;智能控制
引言
近年來,隨著我國對水污染治理的投入持續增加,水處理技術的發展和廢水處理設施規模的增大,處理工藝變得越來越復雜;此外,由于污水的水質水量波動較大,受外部干擾較多,污水處理系統(尤其是生物處理系統)具有耦合性強、滯后性大等特點,系統中各個部分之間彼此關聯,一個條件的改變可能影響整個系統,具有很強的不確定性[1,2,3]。
而傳統手段,如依靠經驗或者是簡單的控制系統已經不能夠滿足當前污水處理系統的需求,這導致污水處理設施建設和運行過程中存在的運行質量差、處理效率低和資源利用率低等問題受到了越來越多的關注。傳感器及在線監測設備在污水處理系統的使用日益頻繁,也為工程技術人員采集了大量的數據,如:水溫、pH、濁度、流量、化學需氧量(COD)、生物需氧量(BOD)、色度等等[4],結合物聯網技術的應用,這些數據被存儲在本地計算機或上傳至云服務器,為污水處理系統的預警、調控和故障診斷提供了基礎信息。物聯網系統持續的數據采集會產生的大數據,如何分析這些數據并從中提取關鍵信息并用于污水處理系統的調控是目前的研究熱點[5,6]。
機器學習方法可充分利用大數據進行非線性回歸、分類和預測[7]、診斷異常數據點以及為多目標系統尋找最優決策方式,是近年來解決復雜工程系統問題的重要手段之一。同時,機器學習方法容錯率高、可適應較大的輸入數據變化、能很好地利用污水處理過程中產生的數據集[8],并通過不斷優化達到較好的學習效果。
正因為具有以上這些特點,近年來在污水處理領域,已有很多科研人員將機器學習方法應用于解決復雜的實際工程問題[9],并且在解決污水處理過程中水質預測準確率低、故障診斷困難以及調控滯后方面取得了一系列新進展。本文將圍繞近年來機器學習在污水處理領域的應用,展開討論和分析,以期為相關領域的科研人員和工程技術人員提供借鑒。
1.機器學習方法分類及簡介
機器學習方法主要是利用選定的模型對輸入數據進行學習,從復雜的數據集中提取出有價值的特征或信息,歸納出合理的變化趨勢,從而進行數據預測,是一種可以在比較預測值與實際值偏差后,重新調整模型中的參數或者結構以提高預測的準確性和可靠性的方法[10]。根據模型對輸入數據的標記方式不同,機器學習可以分為監督學習、無監督學習及半監督學習等類別[11]。
1.1監督學習
監督學習是機器學習方法的一個重要分支之一[12],主要應用于對已知類別的數據集進行學習訓練,通過計算模型尋找數據特征和類別之間的關系,并根據訓練結果進行預測。監督學習是目前在各個領域應用較為廣泛的一種機器學習方法,主要包括線性回歸(LinearRegression)、支持向量機(SupportVectorMachine,SVM)、貝葉斯分類(BayesianClassifier,BC)、人工神經網絡(ArtificialNeuralNetwork,ANN)、隨機森林(RandomForest,RF)以及邏輯回歸(LogisticRegression)等算法。其中線性回歸和邏輯回歸等回歸算法主要是用于研究簡單的自變量和因變量之間的關系,但由于污水處理過程十分復雜,常規的回歸計算往往不能滿足系統預測預警及監控的要求,相比之下,SVM和ANN更適合解決此類復雜問題。
SVM常用于分類,其實質就是將樣本數據以向量形式投射到一個更高維的空間中,并建立一個超平面,目的就是為了能夠找到一個超平面距離所有樣本最小,該方法能夠最小化經驗誤差和模型復雜度,以提高分類效果或者是解決一般化的回歸問題[13],但是SVM僅適用于處理小規模數據,如果樣本量過大,會使得計算過程過于復雜而不能保證分類的準確性;ANN算法則是將輸入信號以激活函數的形式從一個神經元傳遞到另一個神經元,在激活函數中輸入信號數值經過一定的非線性計算以后輸入下一層,直至輸出結果,常見的激活函數有Sigmoid函數、Tanh函數、ReLU函數和ELU函數等[14]。這兩類機器學習算法被廣泛應用于環境預測的相關領域[15],涉及環境生態學[16]、水處理[17]以及關于水質量監測的數據建模[18]等方面。
1.2無監督學習
無監督學習則是機器學習方法的另一重要類別[12],與監督學習方法不同,無監督學習主要對于未分類的數據進行分析,從數據集中提取出潛在的關系或者特征,進而將其分組成簇。目前主流的無監督學習算法主要包括主成分分析(PrincipalComponentsAnalysis,PCA)、K均值聚類(K-meansClustering)、卷積神經網絡(ConvolutionalNeuralNetwork,CNN)和自組織映射(Self-OrganizingMap,SOM)等等。
其中,PCA和K均值聚類是兩種最基礎的無監督學習方法,PCA被廣泛用于數據降維,它可以從高維數據中提取低維子空間并盡可能保留數據的多樣性[19],具體的做法是將高維(n維)特征映射到低維(k維)上,k維即是全新的正交特征,也被稱為主成分,是在原有n維特征的基礎上重新構造出來的k維特征,因此適用于處理復雜的多維度的污水工藝問題,但由于其自適應能力差,對于水質水量變化較大的污水工程實用性不強;K均值聚類算法是一種常用的聚類算法,通過迭代將給定的數據對象劃分為k個不同的聚類并收斂到局部最小,以完成聚類的過程[20],該方法運行速度快,并且適用于處理大型數據集,但是由于算法輸出依賴于隨機種子(k值和聚類中心的選擇均依賴于隨機種子),需要進行反復運算以優化k值及聚類中心。在污水處理中,K均值聚類方法可用于檢測系統故障。
1.3其他機器學習方法
除了監督學習和無監督學習以外,還有一些其他類型的算法,如:可以根據少量標記數據而進行學習的半監督學習算法以及在線建立模型的強化學習算法等。前者可以僅依靠少量標記數據及大量未標注數據進行學習[21],訓練模型以應用在實際工程中;后者則是利用變化的環境狀態傳遞給系統的信息來判斷該變化是否帶來相應的收益,并將該變化與收益儲存,然后不斷尋求能夠取得最大收益的下一個決策。其中比較典型的是Q學習(Q-learning)算法,通過構建一張Q表格來儲存系統中的環境變量以及該變量所能夠帶來的收益,然后根據該Q表格來選取能夠獲得最大收益的動作。在污水處理領域,Q學習算法可用于優化反應器水力停留時間(HRT)[22]。
2.機器學習在水質監測和預警中的應用
2.1機器學習應用于水質監測及預警的優勢
機器學習方法應用過程中需要大量的數據對模型進行訓練以模擬問題過程。隨著眾多新型傳感器[4]、物聯網[39]、云計算[39]、監視控制和數據采集系統(SCADA)[40]等技術在污水處理系統中的廣泛應用,水溫、pH、濁度、流量、COD、BOD、色度、溶解氧、水位等數據大量、持續產生[4],為機器學習在污水處理領域的應用提供了基礎。
基于這些龐大的數據集,機器學習可以在從中尋找規律并根據歷史記錄有效預測未來發展趨勢,從而應用于污水處理的監測和預警中,以了解污水處理過程的實時狀態,也能及時預測未來出水水質、不確定的處理效果及可能會發生的故障等[39]。采用機器學習進行污水處理的監測和預測有著諸多優點,比如:機器學習可以對非線性問題做出較好的預測。
而污水處理系統是一個包括生化和物化反應的極其復雜的過程,且水質水量波動較大,因此具有較大的不確定性,耦合性和滯后性。常規的人工經驗判斷或者一般的數學模型不能夠全面描述這樣的復雜過程,而機器學習擁有著較高的魯棒性、可靠性和泛化能力,能夠較好應對這些問題。另外,機器學習可以同時對多組數據進行關聯。相較于傳統的在線監測系統中只對單個監測點進行記錄而不涉及任何多變量計算,利用機器學習對污水處理進行監測時可以將多個時間點的多個數據進行有關聯[32],從而更清晰地了解污水處理過程中污水狀態的一般性質,實時掌握污水處理系統的運行狀態,避免各類風險及故障。
2.2機器學習在水質監測和預警領域的應用方式
在具體的污水監測工作中,目前尚無通用模型,因此需要根據不同的情況選擇不同的計算模型[2]。目前在污水監測領域使用較多的機器學習模型包括SVM[15]、ANN[8]、ANFIS[2]、DNN[2]、RT[23]和人工神經網絡-遺傳算法的混合模型[25]等幾種類型,主要用于預測污水中的總氮、BOD、COD、總懸浮固體(TSS)和總溶解性固體(TDS)濃度,以及污水處理反應器中的污泥膨脹系數等,并且根據預測結果對可能發生的異常情況進行預警。ANN和SVM是目前在污水預測領域使用最多的機器學習模型,這兩種模型都需要有大量歷史數據作為基礎,并且仍然有著較大改進空間。
在美國社區污水源的預測案例中,研究人員發現使用SVM模型時預測值存在低于實際值的情況,且變量過少可能導致模型性能降低[23];此外,多哈西部污水廠、韓國蔚山污水廠采用ANN及SVM模型對污水進行預測,均未達到預期,針對這一問題,多哈西部污水廠使用相關矩陣和Levenberg–Marquardt算法進行了相關性分析和參數優化[8],韓國蔚山污水廠則利用Latin-Hypercubeonefactor-at-a-time及搜索算法進行了敏感性分析和模型參數優化[15],兩者均取得了良好的預測性能,并且建立了圖形用戶界面以供使用,在一定程度上實現了異常水質的預報預警。
除了經典的ANN和SVM算法,在尼克西亞的污水廠中[2],研究人員使用了由ANN衍生而來的前饋神經網絡(FFNN)和自適應神經模糊推理系統(ANFIS)對污水廠出水的COD、BOD和總氮進行了預測,發現ANFIS方法相比于其他模型有著更好的預測效果,而將幾種機器學習模型進行組合并綜合預測,會比使用單一方法的預測準確率提高24%。機器學習方法不僅可用于水質監測和預測領域,還可用于污水處理的其它方面,比如活性污泥狀態監控。
目前,ANN已經被用于活性污泥反應過程的監測、分類和控制[41],其中的自組織徑向神經網絡可以有效預測污泥膨脹系數[42],在此基礎之上,MajidBagheri等人在Ekbatan污水處理廠,使用經過遺傳算法(GA)優化的混合多層感知器人工神經網絡(MLPANNs)和徑向基數人工神經網絡(RBFANN)模型,可以準確預測污泥膨脹系數(平均誤差不超過輸入值的3%)[25]。總之,機器學習在污水處理系統監測和預警領域有著廣泛應用,但由于污水處理本身非常復雜,環境條件及處理工藝各不相同,針對不同的工藝應當嘗試多種機器模型算法以尋求最佳的監測及預測效果。
3.機器學習在污水處理中系統故障診斷中的應用
3.1污水處理過程中的故障診斷
傳統的故障診斷方法眾多,一般基于歷史數據(定量數據、定性數據和過程數據)[43]的故障診斷方法僅適用于簡單的或線性的機械問題,在應對高維度、非線性的污水處理問題時,傳統的故障診斷方法由于其注重微觀結構[44]、強調及時變化的特點[45],無法全面描述復雜系統的變化規律。
采用機器學習對污水處理設施進行故障診斷的過程可以轉化為基于歷史數據對狀態進行分類的問題。典型的監督學習方法(如:SVM、ANN、貝葉斯網絡等)可以將故障診斷問題從一個二元分類問題擴展為多類別分類問題,以達到較為可靠的故障檢測效果[26,46]。同時在一些無監督學習中,例如K均值聚類、PCA和期望最大化聚類方法中[47],可以將異常問題判定為單獨聚類或者是遠離正常簇的點位,從而達到故障診斷的效果[48]。機器學習方法基于龐大的數據庫,對系統進行持續監測和預測,從而發現問題并有效地實現遠程和本地維護。
當采用機器學習方法進行故障診斷時,不需要關注污水處理中每一部分的運行方式以及其中涉及的各類生化反應過程,而是對整個系統水質指標、運行狀態、環境因素等數據進行采集和處理,從全局的角度進行監控和診斷,有效彌補傳統方法在污水處理故障診斷方面的缺陷。其基本原理是將當前各類監測數據或系統狀態與之前積累的正常或非正常歷史數據進行比對,通過分類或者是聚類的方法,尋找當前數據與歷史數據的相似之處,分析固有背景的變化與異常[49],及時診斷污水處理系統運行的情況正常與否。因此,機器學習需要收集大量的原始數據,結合適當的數據分析技術,將這些數據轉化為有價值的信息,基于這些信息做出積極的決策,以優化總體性能[50]。
3.2機器學習在污水故障診斷和預警領域的應用
機器學習方法在污水處理系統的故障診斷和預警方面的應用主要包括及時發現傳感器失靈、突發水污染、管道泄露以及系統運行參數大幅度波動等各種故障問題。
在農村社區污水處理廠和序批式活性污泥法(SBR)中試裝置的應用實例中[27,47],研究人員以訓練集作為基礎,使用交叉驗證的方式確定了若干主成分,前者利用PCA模型進行故障原因分析,后者則是通過分類判別出是溶解氧傳感器還是液位傳感器故障,均獲得適用于工程應用的故障診斷效果,但這種多元統計方法必須假設水處理過程中環境條件不發生明顯改變,因此該方法只適用于水質變化不大的情況。
針對上文提及的PCA模型不能應對環境條件變化的問題,一些自適應模型開始受到關注,肖紅軍等人使用變分貝葉斯混合因子分析法對傳統PCA的參數進行加權平均改進[46],使其可以針對污水處理系統中的實時變化自行修改,從而提高了該模型的預測預警能力。而在盧布爾雅那污水處理廠實例中,研究人員使用演化模糊模型來模擬各變量之間的非線性關系,并及時調整本地模型和服務器集群的參數并建立新的在線模型,來適應故障預警中的不同工藝條件[29]。
此外,另一類較為典型的自適應模型是基于自組織映射的神經網絡,芬蘭造紙廠污水處理系統和某污水廠BMS1仿真系統是自適應模型應用的典型案例,前者利用基于SOM的監測系統[31],對活性污泥處理廠的工藝數據進行測試;后者利用帝國競爭算法對SOM神經網絡進行優化,從樣本中提取特征并根據特征聚類[32],解決了以往基于單一時刻使用有限的數據來評價水處理過程狀態的困難,為有效診斷工業廢水處理過程中的故障提供了新的可能。此外,隨著機器學習技術的不斷發展,越來越多的研究人員發現單一的機器學習模型無法較好地分析整個污水處理流程。
比如,僅使用SVM對污水處理廠進行故障診斷會導致錯誤率較高,高達到30%左右[26]。而污水處理系統一旦發生誤診,可能會造成較大的損失,因此一些混合機器學習模型被應用到污水處理故障診斷領域,比如可以整合改進的遺傳算法和K均值聚類算法對污水廠的歷史數據進行分析,并且建立了污水廠工藝故障診斷規則,從而利用機器學習完成了污水廠故障診斷及預警[28]。
而在長沙第二污水處理中心的應用實例中,采用多類SVM及使用GA算法對SVM進行優化計算,經過160多代的優化和演進,可以將在關鍵類上的錯分率降低至2.9%,基本滿足了在污水處理系統中故障診斷的要求[26]。由于污水處理過程中可能會發生的故障多種多樣,且這些問題極有可能共同存在于同一個污水處理工程中,因此在尋求機器學習進行故障診斷時,單一的機器學習算法往往無法達到比較好的故障診斷效果。結合上文分析可以看出,采用多種算法混合機器學習方法對故障問題進行診斷和預測有望成為未來技術發展的主流趨勢。
4.機器學習在污水處理系統智能控制中的應用
4.1傳統控制方法和機器學習控制方法的比較
在污水處理過程中,一方面需要高效去除污染物,另一方面需要在水質達標的前提下節能降耗[51]。針對工業領域里這種多目標的問題,已有一些研究采用了多目標控制方法(MOC)以最大限度提高運行效率并且平衡能源消耗[52]。但與其他工業過程不同的是,污水處理過程是一個具有高度不確定性的流程,使用傳統的模型預測控制器(MPC)或局部控制方案達不到預期的效果[53]。因此,為了兼顧出水水質和經濟運行兩方面,需要研究探索更為先進的控制解決方案[33]。而機器學習算法可以根據監測結果,全面衡量污水處理系統的運行,預測未來水質變化,監測預警未知異常,從而對污水處理過程進行反饋和微調,達到高效和節能兩方面的目的。
4.2機器學習在污水處理系統控制中的應用實例
機器學習在污水處理控制領域的應用多種多樣,最初機器學習僅被用作支持決策的輔助系統[54],幫助工程技術員進行更好的判斷和決策;但隨著各類方法的不斷優化,已有研究人員開發了自動收集數據的系統,并以特定的方式升級知識庫,然后將相關指令直接發送到工程執行終端,完成整個控制過程[55]。在污水生物處理系統中,溶解氧(DO)都是主要控制參數之一[56],曝氣量的多少也直接影響污水處理效果和系統運行成本高低。
針對這一問題,機器學習方法被研究人員應用于控制曝氣系統從而實現節能降耗的目標。意大利摩德納市市政污水處理廠和新加坡某污水處理工廠都是利用基于神經網絡的模型控制器預測主要工藝變量[33,34],并調整適當曝氣量以實現高效和經濟的運行效果;也有研究人員利用深度學習中的馬爾科夫決策過程(MDP)來尋求污水廠中最佳曝氣點[35],通過不斷調整曝氣點位置以達到更好的曝氣效果。除了控制溶解氧,利用機器學習,還可以調整污水處理工藝中的其他參數(如氧化還原電位和pH值等)以尋求更好的處理效果[56]。
5.其他機器學習方法應用
機器學習方法不需要了解完整的過程機理,依靠輸入數據集就可以得到準確性較高的輸出結果,因此在污水處理中被廣泛應用,除了上述方面之外,還可以被用于尋找合適的水處理材料[63]、培養處理特定污水所需的微生物[39,64]、建立污水廠能源成本模型[65]、分析污水處理中的關鍵影響因素[66]和探索更合適的水處理工藝方法[67]等。
6.機器學習方法在污水處理系統中應用存在的問題
盡管機器學習在污水處理領域中應用越來越廣泛,并且能在不同的情況下有效保障污水處理系統的正常運行,實現節能降耗,但是仍然有問題需要解決。首先,機器學習模型擁有黑盒性質[15],其自身的可訪問性和可解釋性差,可能在一定程度上影響系統的穩定性。其次,在污水處理系統中,許多參數采用目前的傳感器和其它硬件設備無法獲取,如:技術特征、環境條件、氣象條件、社會狀況、工藝設計方向等等[22]。這些參數是控制過程中不可缺少的部分,但由于其難以量化和評估,機器學習無法將其納入學習和訓練的范疇。
此外,在預測預警及故障診斷方面,機器學習中經常存在數據不平衡問題[68],即系統中采集到的絕大部分數據都是正常樣本,收集到的故障、異常樣本數量極小,因此兩者之間差距較大,而經典分類識別技術要求各類樣本分類盡可能均等,這使得機器學習方法的應用具有一定的局限性。在系統控制方面,相比于使用傳統數學模型或者是傳統的PID控制模型,機器學習模型雖然有著更好的準確性,但是非常依賴歷史數據,需要有大量的背景值作為參考,一旦發生劇烈水質變化,建立在大量歷史數據基礎上的模型可靠性將會下降,無法應對極端條件發生變化的情況,而污水處理中大幅度的水質水量波動是常見情況,因此依賴機器學習進行預警、決策及控制仍無法完全代替傳統系統。
7.結語與展望
綜上所述,目前機器學習在污水處理領域的應用十分廣泛,涉及監測、預測、預警、故障診斷和智能控制等多個技術環節,有著極其廣闊的發展前景。然而由于機器學習自身特點,目前應用還存在局限性。以下幾個方面的問題在未來的相關研究和應用中值得關注。
第一,考慮到污水系統本身十分復雜,涉及多種物理、化學、生物反應,且仍然有許多未提取的信息可以被利用,例如污染物種類、毒性、微生物群落結構和功能等,因此需要開發新的檢測方法,完善機器學習的數據系統,為機器學習方法提供更高維度、更具價值和更有表征性的數據。
第二,在具體的機器學習模型應用方面,某一個單一的機器模型由于其自身固有的缺點和問題,往往不能夠很好地適應污水處理問題,因此多個模型聯合使用,或者是采用混合模型來處理污水問題逐漸成為一種主流趨勢。第三,由于機器學習本身擁有黑盒性質,可解釋性和可訪問性較差,同時機器學習無法應對一些極端情況,因此,開展基礎研究,闡明機器學習算法的基本原理并提高其實用性具有重要的意義。第四,污水處理領域的科研人員和工程技術人員缺少對機器學習算法和相關理論方面的了解,因此需要開展多學科交叉研究,開發更適合污水處理系統的機器學習方法。
參考文獻
[1]IlomsE,OloladeOO,OgolaHJO,etal.InvestigatingindustrialeffluentimpactonmunicipalwastewatertreatmentplantinVaal,SouthAfrica[J].Internationaljournalofenvironmentalresearchandpublichealth,2020,17(3):1096.
[2]NouraniV,ElkiranG,AbbaS.Wastewatertreatmentplantperformanceanalysisusingartificialintelligence–anensembleapproach[J].WaterScienceandTechnology,2018,78(10):2064-2076.
[3]黃道平,邱禹,劉乙奇,等.面向污水處理的數據驅動故障診斷及預測方法綜述[J].華南理工大學學報(自然科學版),2015,43(3):111-120.
作者:芮棟妮馬燕燕葉林*