基于深度強(qiáng)化學(xué)習(xí)的無(wú)信號(hào)燈交叉路口車輛控制

時(shí)間：2022年03月16日分類：電子論文次數(shù)：

　　摘要利用深度強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)無(wú)信號(hào)燈交叉路口車輛控制是智能交通領(lǐng)域的研究熱點(diǎn)。現(xiàn)有研究存在無(wú)法適應(yīng)自動(dòng)駕駛車輛數(shù)量動(dòng)態(tài)變化、訓(xùn)練收斂慢、訓(xùn)練結(jié)果只能達(dá)到局部最優(yōu)等問(wèn)題。文中研究在無(wú)信號(hào)燈交叉路口，自動(dòng)駕駛車輛如何利用分布式深度強(qiáng)化方法來(lái)提升路口的通行效率。首先，提出了一種高效的獎(jiǎng)勵(lì)函數(shù)，將分布式強(qiáng)化學(xué)習(xí)算法應(yīng)用到無(wú)信號(hào)燈交叉路口場(chǎng)景中，使得車輛即使無(wú)法獲取整個(gè)交叉路口的狀態(tài)信息，只依賴局部信息也能有效提升交叉路口的通行效率。然后，針對(duì)開(kāi)放交叉路口場(chǎng)景中強(qiáng)化學(xué)習(xí)方法訓(xùn)練效率低的問(wèn)題，使用了遷移學(xué)習(xí)的方法，將封閉的8字型場(chǎng)景中訓(xùn)練好的策略作為暖啟動(dòng)，在無(wú)信號(hào)燈交叉路口場(chǎng)景繼續(xù)訓(xùn)練，提升了訓(xùn)練效率。最后，提出了一種可以適應(yīng)所有自動(dòng)駕駛車輛比例的策略，此策略在任意比例自動(dòng)駕駛車輛的場(chǎng)景中均可提升交叉路口的通行效率。在仿真平臺(tái)Flow上對(duì)TD3強(qiáng)化學(xué)習(xí)算法進(jìn)行了驗(yàn)證，實(shí)驗(yàn)結(jié)果表明，改進(jìn)后的算法訓(xùn)練收斂快，能適應(yīng)自動(dòng)駕駛車輛比例的動(dòng)態(tài)變化，能有效提升路口的通行效率。

　　關(guān)鍵詞：自動(dòng)駕駛;無(wú)信號(hào)燈交叉路口;深度強(qiáng)化學(xué)習(xí);V2X

深度學(xué)習(xí)

　　1引言

　　無(wú)信號(hào)燈交叉路口場(chǎng)景下車輛的調(diào)度是自動(dòng)駕駛領(lǐng)域最困難的任務(wù)之一，也是本文研究的主題。早期關(guān)于無(wú)信號(hào)交叉路口自動(dòng)駕駛車輛的通行策略方面的研究使用的是基于規(guī)則的方法。基于規(guī)則的決策方法中基于用戶體驗(yàn)、交通規(guī)則等建立規(guī)則庫(kù)，自動(dòng)駕駛車輛根據(jù)所處環(huán)境選擇最優(yōu)行為策略[1]。Lv等[2]提出了一種基于順序選擇的調(diào)度機(jī)制，為每輛即將到達(dá)十字路口的車輛規(guī)劃路口通行方案，提升了路口的通行效率。

　　Rios-Torres等[3]將車輛在路口的通行問(wèn)題建模為無(wú)約束最優(yōu)控制問(wèn)題，并利用哈密爾頓分析推導(dǎo)出解決方案，該方案降低了油耗，減少了車輛平均行駛時(shí)間。Wang等[4]提出了基于分布式共識(shí)的協(xié)議來(lái)解決不同方向車輛匯流的問(wèn)題，減少了車輛平均行駛時(shí)間、能耗和污染物排放，并保證了行車安全。然而，基于規(guī)則的方法高度依賴于對(duì)車輛和地圖、障礙物等環(huán)境的精確建模，無(wú)法應(yīng)用到高度復(fù)雜和動(dòng)態(tài)的駕駛環(huán)境中[5-6]。

　　深度強(qiáng)化學(xué)習(xí)利用深度神經(jīng)網(wǎng)絡(luò)作為策略函數(shù)逼近器，在部署過(guò)程中需要的計(jì)算時(shí)間很少，在解決決策問(wèn)題時(shí)具有天然優(yōu)勢(shì)[7]。強(qiáng)化學(xué)習(xí)已被用于處理交叉路口自動(dòng)駕駛車輛的通行問(wèn)題。文獻(xiàn)[8-9]使用了分布式自動(dòng)駕駛車輛在十字路口基于深度Q網(wǎng)絡(luò)(DeepQNetwork，DQN)的導(dǎo)航策略，可以避免碰撞，提升了通行成功率。然而，DQN只能處理離散低維動(dòng)作的控制，而自動(dòng)駕駛車輛的控制是連續(xù)高維動(dòng)作空間問(wèn)題，需要輸出連續(xù)的方向盤轉(zhuǎn)角值和加速度值，DQN無(wú)法解決[10]。

　　文獻(xiàn)[11]建立了基于DDPG(DeepDetermi-nisticPolicyGradient)深度強(qiáng)化學(xué)習(xí)算法的端到端無(wú)人駕駛決策控制模型，在TORCS平臺(tái)上通過(guò)輸入連續(xù)的車輛行駛環(huán)境感知信息，決策控制模型直接輸出加速、剎車、轉(zhuǎn)向等駕駛動(dòng)作，實(shí)現(xiàn)了端到端無(wú)人駕駛決策。文獻(xiàn)[12]針對(duì)DRL算法的無(wú)約束探索導(dǎo)致的不安全問(wèn)題，提出了動(dòng)作約束安全強(qiáng)化學(xué)習(xí)方法，此方法在智能體執(zhí)行決策時(shí)針對(duì)不安全問(wèn)題進(jìn)行了有效的約束，提升了智能體完成任務(wù)的成功率。

　　多自動(dòng)駕駛車輛環(huán)境的強(qiáng)化學(xué)習(xí)方法研究中，現(xiàn)有的強(qiáng)化學(xué)習(xí)方法可以分為集中式強(qiáng)化學(xué)習(xí)[13]和分布式強(qiáng)化學(xué)習(xí)[14]。集中式強(qiáng)化學(xué)習(xí)場(chǎng)景下，所有智能體采用聯(lián)合狀態(tài)和聯(lián)合獎(jiǎng)勵(lì)，集中控制設(shè)備對(duì)所有智能體進(jìn)行聯(lián)合控制，文獻(xiàn)[15]在有少量自動(dòng)駕駛車輛和人類駕駛車輛的混合交通流場(chǎng)景中，使用了集中式強(qiáng)化學(xué)習(xí)的訓(xùn)練方法，以提升所有車輛在環(huán)形道路上行駛的平穩(wěn)性。

　　然而，由于聯(lián)合狀態(tài)和聯(lián)合獎(jiǎng)勵(lì)的維度會(huì)隨著智能體數(shù)量的增加而增加，因此集中式強(qiáng)化學(xué)習(xí)控制方法存在訓(xùn)練難度大、對(duì)實(shí)時(shí)通信要求高等缺點(diǎn)。分布式強(qiáng)化學(xué)習(xí)采用了集中式訓(xùn)練，分布式執(zhí)行的方法獨(dú)立采集數(shù)據(jù)，所有智能體將采集到的數(shù)據(jù)收集到經(jīng)驗(yàn)緩沖區(qū)統(tǒng)一進(jìn)行訓(xùn)練，得到最終策略。由于每個(gè)智能體都使用局部狀態(tài)進(jìn)行獨(dú)立決策，因此分布式強(qiáng)化學(xué)習(xí)方法具有可拓展性強(qiáng)、通信成本低的優(yōu)點(diǎn)。文獻(xiàn)[16]在混合自主環(huán)境下使用了一種完全分布式的強(qiáng)化學(xué)習(xí)方法來(lái)控制自主駕駛車輛，提升了瓶頸路口的吞吐量。

　　文獻(xiàn)[17]將混合交通高速公路入口匝道合并問(wèn)題描述為一個(gè)多智能體強(qiáng)化學(xué)習(xí)(Multi-AgentReinforcementLearning，MARL)問(wèn)題，匯流和直行車道上的自動(dòng)駕駛車輛共同學(xué)習(xí)一個(gè)策略，使交通吞吐量最大化。文獻(xiàn)[18]利用近端策略優(yōu)化(ProximalPolicyOptimization，PPO)算法來(lái)解決自動(dòng)駕駛車輛在無(wú)信號(hào)燈交叉路口的通行問(wèn)題，提升了路口車輛的平均速度。現(xiàn)有的無(wú)信號(hào)燈交叉路口強(qiáng)化學(xué)習(xí)算法存在以下缺陷：

　　1)對(duì)無(wú)信號(hào)燈交叉路口建模理想化，例如文獻(xiàn)[18]中車輛做決策時(shí)只考慮前后車和自身的狀態(tài)，使所有車輛只能直行;2)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)困難，單一的獎(jiǎng)勵(lì)函數(shù)經(jīng)常會(huì)使訓(xùn)練陷入局部最優(yōu)，訓(xùn)練后達(dá)不到預(yù)期的效果。本文的主要工作如下：(1)將混合交通流無(wú)信號(hào)燈交叉路口自動(dòng)駕駛車輛的通行問(wèn)題轉(zhuǎn)化為一個(gè)分布式強(qiáng)化學(xué)習(xí)問(wèn)題，設(shè)計(jì)了一種混合獎(jiǎng)勵(lì)函數(shù)，有效提升了路口吞吐量。

　　(2)為了解決自動(dòng)駕駛車輛數(shù)量動(dòng)態(tài)變化的問(wèn)題，本文將自動(dòng)駕駛車輛比例參數(shù)化，訓(xùn)練得到的車輛控制策略能適應(yīng)不同比例自動(dòng)駕駛車輛的混合交通流場(chǎng)景。(3)使用了遷移學(xué)習(xí)的方法，將封閉網(wǎng)絡(luò)中訓(xùn)練的分布式強(qiáng)化學(xué)習(xí)策略遷移到開(kāi)放交叉口網(wǎng)絡(luò)中，提升了訓(xùn)練效率。

　　2系統(tǒng)模型

　　本研究考慮無(wú)信號(hào)燈交叉路口混合交通流場(chǎng)景，首先構(gòu)建了一個(gè)4向交叉路口，然后給出了自動(dòng)駕駛車輛及人類駕駛車輛的動(dòng)力學(xué)模型，自動(dòng)駕駛車輛使用強(qiáng)化學(xué)習(xí)訓(xùn)練得到策略控制車輛加速度。

　　在本場(chǎng)景中，每輛自動(dòng)駕駛車輛都配備有傳感設(shè)備，并具有短距離通信能力。假設(shè)自動(dòng)駕駛車輛可以通過(guò)無(wú)線通信、激光雷達(dá)等方式獲取感知區(qū)域內(nèi)最近的9輛車的狀態(tài)信息。狀態(tài)信息包括車道、絕對(duì)位置、轉(zhuǎn)向信息和行駛速度。紅色車輛代表自動(dòng)駕駛車輛，藍(lán)色車輛代表自動(dòng)駕駛車輛感知范圍內(nèi)的車輛，白色車輛代表人類駕駛的車輛。

　　本文使用智能駕駛員模型(IntelligentDriverModel，IDM)[19]模擬人類駕駛車輛的縱向動(dòng)力學(xué)，該模型假設(shè)車輛在限速條件下以最大速度駕駛，同時(shí)與前車保持至少1s的制動(dòng)時(shí)間車頭間距。

　　本文研究混合自主交通：同時(shí)存在自主駕駛車輛和人類駕駛車輛時(shí)，自動(dòng)駕駛車輛如何優(yōu)化交通系統(tǒng)。在開(kāi)放交叉路口，一個(gè)好的控制策略應(yīng)該是在固定的時(shí)間間隔內(nèi)最大化通過(guò)交叉口的車輛總數(shù)。因此將文獻(xiàn)[20]中的Outflow作為性能指標(biāo)，Outflow表示每小時(shí)離開(kāi)路口的車輛數(shù)量。

　　3基于TD3的強(qiáng)化學(xué)習(xí)控制策略

　　本節(jié)主要介紹深度強(qiáng)化學(xué)習(xí)方法的實(shí)現(xiàn)。首先將無(wú)信號(hào)燈交叉路口的通行問(wèn)題公式化為部分可觀測(cè)的馬爾可夫決策過(guò)程(PartiallyObservableMarkovDecisionProcess，POMDP)，然后介紹TD3強(qiáng)化學(xué)習(xí)算法，最后構(gòu)建狀態(tài)空間。動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)求解公式化后的馬爾可夫決策過(guò)程。分布式強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)，每輛自動(dòng)駕駛車輛作為一個(gè)智能體獨(dú)立采集數(shù)據(jù)，所有智能體將采集到的數(shù)據(jù)收集到經(jīng)驗(yàn)緩沖區(qū)統(tǒng)一進(jìn)行訓(xùn)練，得到最終策略。

　　由于智能體執(zhí)行決策時(shí)只需要獲取局部狀態(tài)信息，所有智能體并行決策，因此稱此策略為分布式駕駛策略。本節(jié)主要闡述了如何將分布式深度強(qiáng)化學(xué)習(xí)算法應(yīng)用到路口車輛控制問(wèn)題中，并且給出了算法的具體定義及網(wǎng)絡(luò)結(jié)構(gòu)。針對(duì)強(qiáng)化學(xué)習(xí)算法的3要素，即狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)進(jìn)行了定義。

　　遷移學(xué)習(xí)技術(shù)提供了利用從訓(xùn)練一項(xiàng)任務(wù)中獲得的經(jīng)驗(yàn)來(lái)改進(jìn)另一項(xiàng)任務(wù)的訓(xùn)練方法。強(qiáng)化學(xué)習(xí)中，常見(jiàn)的遷移學(xué)習(xí)方式包括共享策略參數(shù)θ和狀態(tài)動(dòng)作對(duì)〈s，a，r，s′〉。開(kāi)放道路車輛數(shù)量高度動(dòng)態(tài)變化，訓(xùn)練效率低。封閉道路中車輛環(huán)境相對(duì)穩(wěn)定，訓(xùn)練效率更高。此外，封閉道路中車輛數(shù)量固定，從而避免了自動(dòng)駕駛車輛通過(guò)控制道路上的車輛數(shù)量來(lái)增加獎(jiǎng)勵(lì)。本文研究了在封閉道路上訓(xùn)練得到的控制策略能否通過(guò)遷移和微調(diào)的方式應(yīng)用到開(kāi)放網(wǎng)絡(luò)環(huán)境中。

　　4實(shí)驗(yàn)結(jié)果與分析

　　本節(jié)首先介紹實(shí)驗(yàn)的仿真環(huán)境和相關(guān)參數(shù)設(shè)置，然后在Flow框架[21]中對(duì)每個(gè)配置執(zhí)行3次訓(xùn)練策略，選擇訓(xùn)練得到獎(jiǎng)勵(lì)最高的策略，并使用100個(gè)隨機(jī)種子在100次仿真中評(píng)估其性能，記錄相關(guān)指標(biāo)的平均值。

　　4.1仿真環(huán)境與參數(shù)設(shè)置

　　實(shí)驗(yàn)在開(kāi)源框架Flow進(jìn)行，F(xiàn)low提供了分布式強(qiáng)化學(xué)習(xí)庫(kù)(RLlib)[22]和微觀交通仿真器(SUMO)[23]之間的接口。在Flow中可以通過(guò)SUMO創(chuàng)建各種交通場(chǎng)景，然后利用RLlib提供的強(qiáng)化學(xué)習(xí)算法為自動(dòng)駕駛車輛、智能交通燈等訓(xùn)練生成控制策略。本文以IntelCorei7-8700CPU作為硬件環(huán)境，所有實(shí)驗(yàn)都使用TD3算法用相同的參數(shù)集進(jìn)行訓(xùn)練。各項(xiàng)任務(wù)都以回合制方式進(jìn)行訓(xùn)練，一個(gè)回合2000個(gè)時(shí)隙，每個(gè)時(shí)隙長(zhǎng)為0.5s。

　　4.2算法性能分析

　　為了驗(yàn)證本文所使用的深度強(qiáng)化學(xué)習(xí)策略在車輛控制上應(yīng)用的有效性，本文分別將混合獎(jiǎng)勵(lì)函數(shù)與目前常用的獎(jiǎng)勵(lì)函數(shù)、遷移學(xué)習(xí)與未使用遷移學(xué)習(xí)的訓(xùn)練方式、通用策略與定制策略進(jìn)行了性能對(duì)比。

　　4.2.1獎(jiǎng)勵(lì)函數(shù)的比較

　　這里將本文提出的混合獎(jiǎng)勵(lì)函數(shù)與目前常用的兩種獎(jiǎng)勵(lì)函數(shù)在不同的自動(dòng)駕駛車輛比例下進(jìn)行了性能比較。在分布式策略中，主要考慮了自動(dòng)駕駛車輛對(duì)路口吞吐量性能的影響，可以看到，滲透率分別為10%，20%，30%，…，100%，與純?nèi)祟愸{駛車輛相比，路口的通行效率都有顯著提升，這證明了訓(xùn)練得到的控制策略在提高交通效率方面的有效性。

　　深度學(xué)習(xí)論文發(fā)表知識(shí)：人工智能深度學(xué)習(xí)類論文容易發(fā)表嗎

　　5、結(jié)束語(yǔ)

　　本文研究了無(wú)信號(hào)燈交叉路口自動(dòng)駕駛車輛強(qiáng)化學(xué)習(xí)控制策略，并提出了一個(gè)多目標(biāo)獎(jiǎng)勵(lì)函數(shù)，它不僅鼓勵(lì)自主車輛盡快到達(dá)交叉路口的終點(diǎn)，而且鼓勵(lì)車輛提高交叉口的整體通行效率。實(shí)驗(yàn)結(jié)果表明，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到的駕駛策略，在平均速度、吞吐量方面相比純?nèi)祟愸{駛車輛都有明顯提升。

　　針對(duì)單一滲透率環(huán)境下訓(xùn)練出的策略無(wú)法適用于滲透率動(dòng)態(tài)變化的環(huán)境的問(wèn)題，本文研究提出了一種能適應(yīng)不同自動(dòng)駕駛車輛滲透率的通用控制策略，節(jié)省了訓(xùn)練時(shí)間和計(jì)算開(kāi)銷。本文進(jìn)一步研究了密度相近時(shí)封閉場(chǎng)景中生成的控制器可以轉(zhuǎn)移到開(kāi)放網(wǎng)絡(luò)中，并且發(fā)現(xiàn)，即使在兩個(gè)網(wǎng)絡(luò)中使用不同的獎(jiǎng)勵(lì)函數(shù)，遷移學(xué)習(xí)也可以節(jié)省大量的訓(xùn)練時(shí)間。

　　本文通過(guò)仿真實(shí)驗(yàn)結(jié)果證明，當(dāng)自主車輛的普及率相對(duì)較低時(shí)，交叉路口的交通擁堵也可以得到緩解。然而，仍然有一些問(wèn)題沒(méi)有解決。自主車輛的協(xié)同問(wèn)題是一個(gè)典型的多智能體任務(wù)。在本文中，使用的是單智能體算法，它不能連接多個(gè)代理的動(dòng)作。下一步的工作是將多智能體強(qiáng)化學(xué)習(xí)算法應(yīng)用到車輛控制器中。本文研究只考慮了單車道場(chǎng)景，決策中沒(méi)有加入換道動(dòng)作，在下一步的工作中，將考慮在多車道交叉口增加車輛換道動(dòng)作，并聯(lián)合控制橫向和縱向動(dòng)作，以提高交叉口吞吐量。

　　參考文獻(xiàn)：

　　[1]MAM，LIZ.Atime-independenttrajectoryoptimizationap-proachforconnectedandauto-nomousvehiclesunderreserva-tion-basedinte-rsectioncontrol[J].TransportationResearchIn-terdisciplinaryPerspectives，2021，9(5)：100312.

　　[2]LVP，HEYB，XUJ.AnImprovedTrustEvaluationModelBasedonBayesianforWSNs[J].ActaElectronicaSinica，2021，49(5)：912-919.

　　[3]RIOS-TORRESJ，MALIKOPOULOSAA.AutomatedandCooperativeVehicleMergingatHighwayOn-Ramps[J].IEEETransactionsonIntelligentTransportationSystems，2016，18(4)：1-10.

　　[4]WANGZ，KIMBG，KOBAYASHIH，etal.Agent-BasedMo-delingandSimulationofConnectedandAutomatedVehiclesUsingGameEngine：ACooperativeOn-RampMergingStudy[J].arXiv：1810.09952，2018.

　　[5]MAITLANDA，MCPHEEJ.Quasi-translationsforfasthybridnonlinearmodelpredictivecontrol[J].ControlEngineeringPractice，2020，97(4)：104352.1-104352.9.

　　[6]DINGJ，LIL，PENGH，etal.ARule-BasedCooperativeMer-gingStrategyforConnectedandAutomatedVehicles[J].IEEETransactionsonIntelligentTransportationSystems，2020，21(8)：3436-3446.

　　[7]XIONGL，KANGYC，ZHANGPZ，etal.Researchonbeha-viordecision-makingsystemforunmannedvehicle[J].Automo-bileTechnology，2018，515(8)：1-9.

　　作者：歐陽(yáng)卓1周思源1，2呂勇1譚國(guó)平1，2張悅1項(xiàng)亮亮1

上一篇：基于單片機(jī)的送餐機(jī)器人設(shè)計(jì) 下一篇：新興分布式計(jì)算技術(shù)與系統(tǒng)探究