時(shí)間:2022年03月16日 分類:電子論文 次數(shù):
摘要利用深度強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)無(wú)信號(hào)燈交叉路口車輛控制是智能交通領(lǐng)域的研究熱點(diǎn)。現(xiàn)有研究存在無(wú)法適應(yīng)自動(dòng)駕駛車輛數(shù)量動(dòng)態(tài)變化、訓(xùn)練收斂慢、訓(xùn)練結(jié)果只能達(dá)到局部最優(yōu)等問(wèn)題。文中研究在無(wú)信號(hào)燈交叉路口,自動(dòng)駕駛車輛如何利用分布式深度強(qiáng)化方法來(lái)提升路口的通行效率。首先,提出了一種高效的獎(jiǎng)勵(lì)函數(shù),將分布式強(qiáng)化學(xué)習(xí)算法應(yīng)用到無(wú)信號(hào)燈交叉路口場(chǎng)景中,使得車輛即使無(wú)法獲取整個(gè)交叉路口的狀態(tài)信息,只依賴局部信息也能有效提升交叉路口的通行效率。然后,針對(duì)開(kāi)放交叉路口場(chǎng)景中強(qiáng)化學(xué)習(xí)方法訓(xùn)練效率低的問(wèn)題,使用了遷移學(xué)習(xí)的方法,將封閉的8字型場(chǎng)景中訓(xùn)練好的策略作為暖啟動(dòng),在無(wú)信號(hào)燈交叉路口場(chǎng)景繼續(xù)訓(xùn)練,提升了訓(xùn)練效率。最后,提出了一種可以適應(yīng)所有自動(dòng)駕駛車輛比例的策略,此策略在任意比例自動(dòng)駕駛車輛的場(chǎng)景中均可提升交叉路口的通行效率。在仿真平臺(tái)Flow上對(duì)TD3強(qiáng)化學(xué)習(xí)算法進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法訓(xùn)練收斂快,能適應(yīng)自動(dòng)駕駛車輛比例的動(dòng)態(tài)變化,能有效提升路口的通行效率。
關(guān)鍵詞:自動(dòng)駕駛;無(wú)信號(hào)燈交叉路口;深度強(qiáng)化學(xué)習(xí);V2X
1引言
無(wú)信號(hào)燈交叉路口場(chǎng)景下車輛的調(diào)度是自動(dòng)駕駛領(lǐng)域最困難的任務(wù)之一,也是本文研究的主題。早期關(guān)于無(wú)信號(hào)交叉路口自動(dòng)駕駛車輛的通行策略方面的研究使用的是基于規(guī)則的方法。基于規(guī)則的決策方法中基于用戶體驗(yàn)、交通規(guī)則等建立規(guī)則庫(kù),自動(dòng)駕駛車輛根據(jù)所處環(huán)境選擇最優(yōu)行為策略[1]。Lv等[2]提出了一種基于順序選擇的調(diào)度機(jī)制,為每輛即將到達(dá)十字路口的車輛規(guī)劃路口通行方案,提升了路口的通行效率。
Rios-Torres等[3]將車輛在路口的通行問(wèn)題建模為無(wú)約束最優(yōu)控制問(wèn)題,并利用哈密爾頓分析推導(dǎo)出解決方案,該方案降低了油耗,減少了車輛平均行駛時(shí)間。Wang等[4]提出了基于分布式共識(shí)的協(xié)議來(lái)解決不同方向車輛匯流的問(wèn)題,減少了車輛平均行駛時(shí)間、能耗和污染物排放,并保證了行車安全。然而,基于規(guī)則的方法高度依賴于對(duì)車輛和地圖、障礙物等環(huán)境的精確建模,無(wú)法應(yīng)用到高度復(fù)雜和動(dòng)態(tài)的駕駛環(huán)境中[5-6]。
深度強(qiáng)化學(xué)習(xí)利用深度神經(jīng)網(wǎng)絡(luò)作為策略函數(shù)逼近器,在部署過(guò)程中需要的計(jì)算時(shí)間很少,在解決決策問(wèn)題時(shí)具有天然優(yōu)勢(shì)[7]。強(qiáng)化學(xué)習(xí)已被用于處理交叉路口自動(dòng)駕駛車輛的通行問(wèn)題。文獻(xiàn)[8-9]使用了分布式自動(dòng)駕駛車輛在十字路口基于深度Q網(wǎng)絡(luò)(DeepQNetwork,DQN)的導(dǎo)航策略,可以避免碰撞,提升了通行成功率。然而,DQN只能處理離散低維動(dòng)作的控制,而自動(dòng)駕駛車輛的控制是連續(xù)高維動(dòng)作空間問(wèn)題,需要輸出連續(xù)的方向盤轉(zhuǎn)角值和加速度值,DQN無(wú)法解決[10]。
文獻(xiàn)[11]建立了基于DDPG(DeepDetermi-nisticPolicyGradient)深度強(qiáng)化學(xué)習(xí)算法的端到端無(wú)人駕駛決策控制模型,在TORCS平臺(tái)上通過(guò)輸入連續(xù)的車輛行駛環(huán)境感知信息,決策控制模型直接輸出加速、剎車、轉(zhuǎn)向等駕駛動(dòng)作,實(shí)現(xiàn)了端到端無(wú)人駕駛決策。文獻(xiàn)[12]針對(duì)DRL算法的無(wú)約束探索導(dǎo)致的不安全問(wèn)題,提出了動(dòng)作約束安全強(qiáng)化學(xué)習(xí)方法,此方法在智能體執(zhí)行決策時(shí)針對(duì)不安全問(wèn)題進(jìn)行了有效的約束,提升了智能體完成任務(wù)的成功率。
多自動(dòng)駕駛車輛環(huán)境的強(qiáng)化學(xué)習(xí)方法研究中,現(xiàn)有的強(qiáng)化學(xué)習(xí)方法可以分為集中式強(qiáng)化學(xué)習(xí)[13]和分布式強(qiáng)化學(xué)習(xí)[14]。集中式強(qiáng)化學(xué)習(xí)場(chǎng)景下,所有智能體采用聯(lián)合狀態(tài)和聯(lián)合獎(jiǎng)勵(lì),集中控制設(shè)備對(duì)所有智能體進(jìn)行聯(lián)合控制,文獻(xiàn)[15]在有少量自動(dòng)駕駛車輛和人類駕駛車輛的混合交通流場(chǎng)景中,使用了集中式強(qiáng)化學(xué)習(xí)的訓(xùn)練方法,以提升所有車輛在環(huán)形道路上行駛的平穩(wěn)性。
然而,由于聯(lián)合狀態(tài)和聯(lián)合獎(jiǎng)勵(lì)的維度會(huì)隨著智能體數(shù)量的增加而增加,因此集中式強(qiáng)化學(xué)習(xí)控制方法存在訓(xùn)練難度大、對(duì)實(shí)時(shí)通信要求高等缺點(diǎn)。分布式強(qiáng)化學(xué)習(xí)采用了集中式訓(xùn)練,分布式執(zhí)行的方法獨(dú)立采集數(shù)據(jù),所有智能體將采集到的數(shù)據(jù)收集到經(jīng)驗(yàn)緩沖區(qū)統(tǒng)一進(jìn)行訓(xùn)練,得到最終策略。由于每個(gè)智能體都使用局部狀態(tài)進(jìn)行獨(dú)立決策,因此分布式強(qiáng)化學(xué)習(xí)方法具有可拓展性強(qiáng)、通信成本低的優(yōu)點(diǎn)。文獻(xiàn)[16]在混合自主環(huán)境下使用了一種完全分布式的強(qiáng)化學(xué)習(xí)方法來(lái)控制自主駕駛車輛,提升了瓶頸路口的吞吐量。
文獻(xiàn)[17]將混合交通高速公路入口匝道合并問(wèn)題描述為一個(gè)多智能體強(qiáng)化學(xué)習(xí)(Multi-AgentReinforcementLearning,MARL)問(wèn)題,匯流和直行車道上的自動(dòng)駕駛車輛共同學(xué)習(xí)一個(gè)策略,使交通吞吐量最大化。文獻(xiàn)[18]利用近端策略優(yōu)化(ProximalPolicyOptimization,PPO)算法來(lái)解決自動(dòng)駕駛車輛在無(wú)信號(hào)燈交叉路口的通行問(wèn)題,提升了路口車輛的平均速度。現(xiàn)有的無(wú)信號(hào)燈交叉路口強(qiáng)化學(xué)習(xí)算法存在以下缺陷:
1)對(duì)無(wú)信號(hào)燈交叉路口建模理想化,例如文獻(xiàn)[18]中車輛做決策時(shí)只考慮前后車和自身的狀態(tài),使所有車輛只能直行;2)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)困難,單一的獎(jiǎng)勵(lì)函數(shù)經(jīng)常會(huì)使訓(xùn)練陷入局部最優(yōu),訓(xùn)練后達(dá)不到預(yù)期的效果。本文的主要工作如下:(1)將混合交通流無(wú)信號(hào)燈交叉路口自動(dòng)駕駛車輛的通行問(wèn)題轉(zhuǎn)化為一個(gè)分布式強(qiáng)化學(xué)習(xí)問(wèn)題,設(shè)計(jì)了一種混合獎(jiǎng)勵(lì)函數(shù),有效提升了路口吞吐量。
(2)為了解決自動(dòng)駕駛車輛數(shù)量動(dòng)態(tài)變化的問(wèn)題,本文將自動(dòng)駕駛車輛比例參數(shù)化,訓(xùn)練得到的車輛控制策略能適應(yīng)不同比例自動(dòng)駕駛車輛的混合交通流場(chǎng)景。(3)使用了遷移學(xué)習(xí)的方法,將封閉網(wǎng)絡(luò)中訓(xùn)練的分布式強(qiáng)化學(xué)習(xí)策略遷移到開(kāi)放交叉口網(wǎng)絡(luò)中,提升了訓(xùn)練效率。
2系統(tǒng)模型
本研究考慮無(wú)信號(hào)燈交叉路口混合交通流場(chǎng)景,首先構(gòu)建了一個(gè)4向交叉路口,然后給出了自動(dòng)駕駛車輛及人類駕駛車輛的動(dòng)力學(xué)模型,自動(dòng)駕駛車輛使用強(qiáng)化學(xué)習(xí)訓(xùn)練得到策略控制車輛加速度。
在本場(chǎng)景中,每輛自動(dòng)駕駛車輛都配備有傳感設(shè)備,并具有短距離通信能力。假設(shè)自動(dòng)駕駛車輛可以通過(guò)無(wú)線通信、激光雷達(dá)等方式獲取感知區(qū)域內(nèi)最近的9輛車的狀態(tài)信息。狀態(tài)信息包括車道、絕對(duì)位置、轉(zhuǎn)向信息和行駛速度。紅色車輛代表自動(dòng)駕駛車輛,藍(lán)色車輛代表自動(dòng)駕駛車輛感知范圍內(nèi)的車輛,白色車輛代表人類駕駛的車輛。
本文使用智能駕駛員模型(IntelligentDriverModel,IDM)[19]模擬人類駕駛車輛的縱向動(dòng)力學(xué),該模型假設(shè)車輛在限速條件下以最大速度駕駛,同時(shí)與前車保持至少1s的制動(dòng)時(shí)間車頭間距。
本文研究混合自主交通:同時(shí)存在自主駕駛車輛和人類駕駛車輛時(shí),自動(dòng)駕駛車輛如何優(yōu)化交通系統(tǒng)。在開(kāi)放交叉路口,一個(gè)好的控制策略應(yīng)該是在固定的時(shí)間間隔內(nèi)最大化通過(guò)交叉口的車輛總數(shù)。因此將文獻(xiàn)[20]中的Outflow作為性能指標(biāo),Outflow表示每小時(shí)離開(kāi)路口的車輛數(shù)量。
3基于TD3的強(qiáng)化學(xué)習(xí)控制策略
本節(jié)主要介紹深度強(qiáng)化學(xué)習(xí)方法的實(shí)現(xiàn)。首先將無(wú)信號(hào)燈交叉路口的通行問(wèn)題公式化為部分可觀測(cè)的馬爾可夫決策過(guò)程(PartiallyObservableMarkovDecisionProcess,POMDP),然后介紹TD3強(qiáng)化學(xué)習(xí)算法,最后構(gòu)建狀態(tài)空間。動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)求解公式化后的馬爾可夫決策過(guò)程。分布式強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí),每輛自動(dòng)駕駛車輛作為一個(gè)智能體獨(dú)立采集數(shù)據(jù),所有智能體將采集到的數(shù)據(jù)收集到經(jīng)驗(yàn)緩沖區(qū)統(tǒng)一進(jìn)行訓(xùn)練,得到最終策略。
由于智能體執(zhí)行決策時(shí)只需要獲取局部狀態(tài)信息,所有智能體并行決策,因此稱此策略為分布式駕駛策略。本節(jié)主要闡述了如何將分布式深度強(qiáng)化學(xué)習(xí)算法應(yīng)用到路口車輛控制問(wèn)題中,并且給出了算法的具體定義及網(wǎng)絡(luò)結(jié)構(gòu)。針對(duì)強(qiáng)化學(xué)習(xí)算法的3要素,即狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)進(jìn)行了定義。
遷移學(xué)習(xí)技術(shù)提供了利用從訓(xùn)練一項(xiàng)任務(wù)中獲得的經(jīng)驗(yàn)來(lái)改進(jìn)另一項(xiàng)任務(wù)的訓(xùn)練方法。強(qiáng)化學(xué)習(xí)中,常見(jiàn)的遷移學(xué)習(xí)方式包括共享策略參數(shù)θ和狀態(tài)動(dòng)作對(duì)〈s,a,r,s′〉。開(kāi)放道路車輛數(shù)量高度動(dòng)態(tài)變化,訓(xùn)練效率低。封閉道路中車輛環(huán)境相對(duì)穩(wěn)定,訓(xùn)練效率更高。此外,封閉道路中車輛數(shù)量固定,從而避免了自動(dòng)駕駛車輛通過(guò)控制道路上的車輛數(shù)量來(lái)增加獎(jiǎng)勵(lì)。本文研究了在封閉道路上訓(xùn)練得到的控制策略能否通過(guò)遷移和微調(diào)的方式應(yīng)用到開(kāi)放網(wǎng)絡(luò)環(huán)境中。
4實(shí)驗(yàn)結(jié)果與分析
本節(jié)首先介紹實(shí)驗(yàn)的仿真環(huán)境和相關(guān)參數(shù)設(shè)置,然后在Flow框架[21]中對(duì)每個(gè)配置執(zhí)行3次訓(xùn)練策略,選擇訓(xùn)練得到獎(jiǎng)勵(lì)最高的策略,并使用100個(gè)隨機(jī)種子在100次仿真中評(píng)估其性能,記錄相關(guān)指標(biāo)的平均值。
4.1仿真環(huán)境與參數(shù)設(shè)置
實(shí)驗(yàn)在開(kāi)源框架Flow進(jìn)行,F(xiàn)low提供了分布式強(qiáng)化學(xué)習(xí)庫(kù)(RLlib)[22]和微觀交通仿真器(SUMO)[23]之間的接口。在Flow中可以通過(guò)SUMO創(chuàng)建各種交通場(chǎng)景,然后利用RLlib提供的強(qiáng)化學(xué)習(xí)算法為自動(dòng)駕駛車輛、智能交通燈等訓(xùn)練生成控制策略。本文以IntelCorei7-8700CPU作為硬件環(huán)境,所有實(shí)驗(yàn)都使用TD3算法用相同的參數(shù)集進(jìn)行訓(xùn)練。各項(xiàng)任務(wù)都以回合制方式進(jìn)行訓(xùn)練,一個(gè)回合2000個(gè)時(shí)隙,每個(gè)時(shí)隙長(zhǎng)為0.5s。
4.2算法性能分析
為了驗(yàn)證本文所使用的深度強(qiáng)化學(xué)習(xí)策略在車輛控制上應(yīng)用的有效性,本文分別將混合獎(jiǎng)勵(lì)函數(shù)與目前常用的獎(jiǎng)勵(lì)函數(shù)、遷移學(xué)習(xí)與未使用遷移學(xué)習(xí)的訓(xùn)練方式、通用策略與定制策略進(jìn)行了性能對(duì)比。
4.2.1獎(jiǎng)勵(lì)函數(shù)的比較
這里將本文提出的混合獎(jiǎng)勵(lì)函數(shù)與目前常用的兩種獎(jiǎng)勵(lì)函數(shù)在不同的自動(dòng)駕駛車輛比例下進(jìn)行了性能比較。在分布式策略中,主要考慮了自動(dòng)駕駛車輛對(duì)路口吞吐量性能的影響,可以看到,滲透率分別為10%,20%,30%,…,100%,與純?nèi)祟愸{駛車輛相比,路口的通行效率都有顯著提升,這證明了訓(xùn)練得到的控制策略在提高交通效率方面的有效性。
深度學(xué)習(xí)論文發(fā)表知識(shí):人工智能深度學(xué)習(xí)類論文容易發(fā)表嗎
5、結(jié)束語(yǔ)
本文研究了無(wú)信號(hào)燈交叉路口自動(dòng)駕駛車輛強(qiáng)化學(xué)習(xí)控制策略,并提出了一個(gè)多目標(biāo)獎(jiǎng)勵(lì)函數(shù),它不僅鼓勵(lì)自主車輛盡快到達(dá)交叉路口的終點(diǎn),而且鼓勵(lì)車輛提高交叉口的整體通行效率。實(shí)驗(yàn)結(jié)果表明,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到的駕駛策略,在平均速度、吞吐量方面相比純?nèi)祟愸{駛車輛都有明顯提升。
針對(duì)單一滲透率環(huán)境下訓(xùn)練出的策略無(wú)法適用于滲透率動(dòng)態(tài)變化的環(huán)境的問(wèn)題,本文研究提出了一種能適應(yīng)不同自動(dòng)駕駛車輛滲透率的通用控制策略,節(jié)省了訓(xùn)練時(shí)間和計(jì)算開(kāi)銷。本文進(jìn)一步研究了密度相近時(shí)封閉場(chǎng)景中生成的控制器可以轉(zhuǎn)移到開(kāi)放網(wǎng)絡(luò)中,并且發(fā)現(xiàn),即使在兩個(gè)網(wǎng)絡(luò)中使用不同的獎(jiǎng)勵(lì)函數(shù),遷移學(xué)習(xí)也可以節(jié)省大量的訓(xùn)練時(shí)間。
本文通過(guò)仿真實(shí)驗(yàn)結(jié)果證明,當(dāng)自主車輛的普及率相對(duì)較低時(shí),交叉路口的交通擁堵也可以得到緩解。然而,仍然有一些問(wèn)題沒(méi)有解決。自主車輛的協(xié)同問(wèn)題是一個(gè)典型的多智能體任務(wù)。在本文中,使用的是單智能體算法,它不能連接多個(gè)代理的動(dòng)作。下一步的工作是將多智能體強(qiáng)化學(xué)習(xí)算法應(yīng)用到車輛控制器中。本文研究只考慮了單車道場(chǎng)景,決策中沒(méi)有加入換道動(dòng)作,在下一步的工作中,將考慮在多車道交叉口增加車輛換道動(dòng)作,并聯(lián)合控制橫向和縱向動(dòng)作,以提高交叉口吞吐量。
參考文獻(xiàn):
[1]MAM,LIZ.Atime-independenttrajectoryoptimizationap-proachforconnectedandauto-nomousvehiclesunderreserva-tion-basedinte-rsectioncontrol[J].TransportationResearchIn-terdisciplinaryPerspectives,2021,9(5):100312.
[2]LVP,HEYB,XUJ.AnImprovedTrustEvaluationModelBasedonBayesianforWSNs[J].ActaElectronicaSinica,2021,49(5):912-919.
[3]RIOS-TORRESJ,MALIKOPOULOSAA.AutomatedandCooperativeVehicleMergingatHighwayOn-Ramps[J].IEEETransactionsonIntelligentTransportationSystems,2016,18(4):1-10.
[4]WANGZ,KIMBG,KOBAYASHIH,etal.Agent-BasedMo-delingandSimulationofConnectedandAutomatedVehiclesUsingGameEngine:ACooperativeOn-RampMergingStudy[J].arXiv:1810.09952,2018.
[5]MAITLANDA,MCPHEEJ.Quasi-translationsforfasthybridnonlinearmodelpredictivecontrol[J].ControlEngineeringPractice,2020,97(4):104352.1-104352.9.
[6]DINGJ,LIL,PENGH,etal.ARule-BasedCooperativeMer-gingStrategyforConnectedandAutomatedVehicles[J].IEEETransactionsonIntelligentTransportationSystems,2020,21(8):3436-3446.
[7]XIONGL,KANGYC,ZHANGPZ,etal.Researchonbeha-viordecision-makingsystemforunmannedvehicle[J].Automo-bileTechnology,2018,515(8):1-9.
作者:歐陽(yáng)卓1周思源1,2呂勇1譚國(guó)平1,2張悅1項(xiàng)亮亮1
Take the first step of our cooperation邁出我們合作第一步