時間:2018年01月15日 分類:電子論文 次數(shù):
目前在線訂單存在配送效率低、時空運輸分配不均勻及顧客滿意度不高等不足,為此需要在價格和交付時期對消費者選擇行為影響展開分析。不斷采用強化學(xué)習(xí)結(jié)合運能分配特點對訂單群進行分配。結(jié)果顯示采用強化學(xué)習(xí)可以使每個時隙每輛車的運輸分配均勻,分配方法應(yīng)符合消費者的行為習(xí)慣,消費者對時隙價格偏好程度越高商家收益就越低,最后可知采用強化學(xué)習(xí)解決時隙運能分配問題的必然性和持久性。
關(guān)鍵詞: 時隙, 運能配置, Logit模型,強化學(xué)習(xí)
電子商務(wù)的興起給傳統(tǒng)零售業(yè)帶來了新的發(fā)展方向,也給訂單配送提出了更高的要求。除訂單價格影響消費者的選擇行為外,訂單的交付期也成為消費者考慮的重要因素。時隙(time slot)在電子商務(wù)中指網(wǎng)絡(luò)零售商提供給消費者選擇的訂單送達的交貨時間窗[1],如亞馬遜、京東商城、當(dāng)當(dāng)網(wǎng)都向消費者提供了配送時隙選項,其中京東的“極速達”保證在服務(wù)時間(3 h)內(nèi)將貨物送至客戶手上,但收費往往是常規(guī)配送的幾倍。通過給消費者提供訂單配送時隙表安排配送作業(yè),一方面有利于消費者根據(jù)自身情況安排接收,提高客戶滿意度,另一方面有利于協(xié)調(diào)物流服務(wù)商的作業(yè)安排,合理規(guī)劃車輛運能和配送時間線路,提升競爭能力。雖然電商的差異化交付期承諾可以滿足消費者需求,但在承諾交付期時需根據(jù)自身車輛運能情況進行權(quán)衡。
CAMPBELL等[2]研究發(fā)現(xiàn)時隙價格會影響消費者的選擇行為和商家的最終收益,采用價格激勵方法可調(diào)控消費者的選擇行為。在現(xiàn)實配送中,存在預(yù)先知道配送地點但對配送時間不明的問題,對此SROUR等[3]提出了混合整數(shù)規(guī)劃模型,與傳統(tǒng)的配送方式對比,該模型很大程度上提高了配送效率。陳淮莉等[4]從消費者選擇模型出發(fā)建立了收益模型,通過求解模型得出區(qū)域和時隙寬度對消費者時隙選擇行為的影響。李科峰等[5]研究了基于時隙配送的訂單履約方法,并從時隙配送的角度建立了優(yōu)化模型。元鵬鵬等[6]考慮時隙替代的客戶選擇行為,并結(jié)合交付期敏感度和時隙運能等因素建立了規(guī)劃模型,對比分析了各種因素對收益的影響。
在實際的訂單時隙管理中,訂單接收和配送不僅需要考慮時隙定價,還需要結(jié)合時隙運能要求進行綜合分析。強化學(xué)習(xí)(Reinforcement Learning,RL)是基于馬爾科夫過程理論的隨機動態(tài)系統(tǒng)的最優(yōu)決策過程,是解決訂單配置問題的一種較好的求解方法。郝鵑等[7]基于收益管理的思想研究了不確定環(huán)境下按訂單生產(chǎn)(Made To Order, MTO)的企業(yè)的訂單接收問題,把訂單類型、訂單價格和訂單交付期作為系統(tǒng)狀態(tài)劃分標(biāo)準(zhǔn),提出了解決訂單接收問題的RL算法,并證明了算法的可行性。趙紹航[8]采用RL中的SMART(SemiMarkov Average Reward Technique)確定供應(yīng)鏈庫存中貨物訂購的必要性及訂購的數(shù)量。SMART能夠求解狀態(tài)集和動作集都較大的RL問題。
電商訂單配置具有動態(tài)性。劉成麗[9]在進行突發(fā)事件的動態(tài)管理時,結(jié)合博弈論和RL的思想,從突發(fā)事件的緊急程度、事件隊列等方面對動態(tài)任務(wù)分配進行建模,決定處理突發(fā)事件的先后順序使平均任務(wù)效益最大。王金田[10]提出基于模擬退火的Q學(xué)習(xí)比普通的Q學(xué)習(xí)更適合解決電商的動態(tài)定價問題,從單銷售商定價到雙銷售商定價進行訂單動態(tài)管理。黃云霞[11]在解決信號接入問題時,運用改進的Q學(xué)習(xí)分析了用戶接入共享空閑信道和獨占空閑信道的方式,研究了雙信道內(nèi)無線網(wǎng)絡(luò)動態(tài)頻譜分配,提出了兩種接入方式下的協(xié)作ε貪心算法,顯著提高了信號接入效率。MICHAEL[12]運用RL的方法解決網(wǎng)絡(luò)信息配置過程中的定價和能力配置問題,并與遺傳算法進行對比。
綜上,已有的訂單時隙研究主要集中在時隙定價上,是通過靜態(tài)定價模型引導(dǎo)消費者的時隙選擇行為,忽略了時隙的運能限制和訂單處理過程的動態(tài)性。RL的求解方式能夠較好地體現(xiàn)訂單動態(tài)性的特征,因此本文基于電商訂單時隙配送的特點,并考慮消費者選擇時隙的行為和時隙運能的限制,通過RL解決時隙運能的動態(tài)分配問題,期望得到最佳的分配策略,為電商運能分配決策提供參考。
1 基于RL的訂單處理過程
在線訂單處理流程主要分為訂單提交、訂單分配和訂單配送等3個過程。以京東商城為例:消費者挑選完商品后填寫配送地址,選擇配送時隙,提交訂單并付款;京東配送中心根據(jù)配送地址和時隙將訂單分配給特定的運輸車輛,然后進行商品分揀、出庫,并裝入特定車輛進行配送。在線訂單處理流程是一個動態(tài)決策過程,當(dāng)時隙運能固定時,當(dāng)前訂單分配結(jié)果直接影響到下一訂單的分配,符合Markov決策過程。RL作為Markov決策過程的解決方案,能夠與外界環(huán)境發(fā)生互動,并能根據(jù)訂單特性不斷選擇較好的策略,強化此策略的動作選擇。
1.1 參數(shù)定義
消費者選擇概率是電商預(yù)測消費者行為的方法,通過下單時間和客戶對價格、交付期的偏好,預(yù)測消費者選擇特定時隙的概率。本文把消費者選擇概率默認為系統(tǒng)預(yù)測消費者選擇訂單配送時隙的概率。
1.3 RL
從RL算法的角度看,每個隨機到達的訂單都使系統(tǒng)進入一個新狀態(tài)。在每個狀態(tài)下,系統(tǒng)對當(dāng)前訂單有兩種動作選擇,即接收訂單或放棄訂單。然而,由于時隙的特殊性,系統(tǒng)還需要分配訂單配送時隙和配送車輛,然后進入下一狀態(tài),對下一訂單再選擇動作,即分配時隙和車輛。由此,定義RL中的狀態(tài)集、動作集、即時收益函數(shù)和值函數(shù)的更新規(guī)則。
當(dāng)前訂單的狀態(tài)值Q(sq,atm)=訂單配送計劃表×收益,狀態(tài)集系統(tǒng)根據(jù)當(dāng)前訂單的動作選擇再次更新配送計劃表和已經(jīng)獲得的收益。
1.4 訂單處理過程
綜上,基于RL的訂單時隙運能配置算法主要過程如下:輸入運能限制表和即時收益矩陣;初始化動作值函數(shù)和計劃表;以RL訓(xùn)練次數(shù)的設(shè)定值為循環(huán)迭代數(shù)處理訂單。每個訂單的處理過程(即動作選擇過程)分為3步:第1步,根據(jù)交付期和訂單價格,基于Logit模型在動作集中選擇動作,得到收益rqt。如果該訂單被配置時隙t和車輛m后未超過車輛m運能配置的最大值,則選擇動作atm;否則,系統(tǒng)自動選擇同時隙的其他車輛作為該訂單的配置車輛;若選擇此動作后,超過時隙運能最大限制,則系統(tǒng)放棄訂單。第2步,由于訂單配置過程中的狀態(tài)轉(zhuǎn)移概率為1,所以下一狀態(tài)即為訂單列表的下一訂單,根據(jù)式(1)計算Q(sq,atm)。第3步,令sq←sq+1,計算下一訂單。直到所有訂單處理完畢。
按照上述算法流程,系統(tǒng)根據(jù)訂單q的價格、配送時隙、已有計劃表、運能限制等選擇訂單q的動作。動作結(jié)束后,系統(tǒng)更新計劃表。計劃表更新后處理下一訂單,根據(jù)訂單q+1的價格、配送時隙、更新后的計劃表、運能限制等選擇訂單q+1的動作,再次更新計劃表。以此循環(huán)不斷更新計劃表,直到處理完所有訂單得到最終計劃表。
1.5 探索空間
在RL中,通常用ε貪心策略解決探索未知空間和現(xiàn)有知識利用問題,即以概率ε隨機選擇行動,以概率1-ε選擇最優(yōu)的行動。一方面鑒于電商消費者選擇的特性,選擇Logit模型作為選擇最優(yōu)動作的方法,這是因為與貪心策略相比,Logit模型能更好地描述消費者的時隙選擇行為,不以回報值最大作為探索未知空間和利用現(xiàn)有知識的依據(jù),同時,既考慮選擇概率大的配送時隙也考慮選擇概率小的配送時隙,甚至考慮放棄時隙選擇的可能性;另一方面結(jié)合Logit模型,設(shè)置探索空間閾值,在數(shù)據(jù)量大時能夠更快地得出結(jié)果,保證結(jié)果收斂且收益值較高。
2 算 例
假設(shè)配送時間為8:00—20:00,時隙長度為2 h,共有4輛配送車輛。車輛和時隙的初始運能分配見表1。每輛車每個時隙的運能限制都為50個單位,如初始運能分配計劃中車輛1在8:00—10:00內(nèi)需要完成40個訂單的配送,且車輛1在此時隙最多能承擔(dān)50個單位貨物的配送。假設(shè)在4:00—8:00內(nèi)按照泊松分布到達300個訂單,對這部分訂單進行運能配置。采用MATLAB 2013a進行算例模擬。設(shè)置RL訓(xùn)練次數(shù)為500,α=0。99,γ=0。98,Uq0=10,β1=0。1,β2=0。1,服從泊松分布的λ=3。
2.1 運能分配分析
在訂單分配過程中,電商需要權(quán)衡利潤與成本的關(guān)系。對臨時到達的訂單商家會選擇把該訂單加入已有的配送任務(wù)計劃中,或當(dāng)訂單規(guī)模達到一定程度后,考慮增加新的配送任務(wù),充分利用已有的計劃運能或增加新的運能,使配送成本不至于過高,也使每輛車每時隙的任務(wù)分配均衡。經(jīng)過模擬運行,得到各時隙的訂單接收情況,表2是運行結(jié)果,300個訂單中放棄24個訂單,剩余的276個訂單得到運能分配。
每時隙每輛車并不都是有初始任務(wù)分配的,如對于時隙14:00—16:00,車輛1是沒有配送任務(wù)的,車輛運能浪費。通過RL,對臨時到達的訂單進行分配后車輛和時隙的運能達到了均衡,說明RL用于解決運能分配問題具有可行性。從結(jié)果可知,大多數(shù)訂單選擇時隙8:00—10:00,此時隙的運能到達限制,得到了充分利用,時隙10:00—12:00的訂單量次于時隙8:00—10:00的訂單量,這符合消費者的實際需求。
2.2 價格偏好對總收益的影響
客戶對價格的偏好程度會影響商家的總收益。圖1是基于RL進行運能分配時β2對訂單總收益的影響。從圖1可明顯看出,β2值越大,總收益越小。這說明,β2值越大消費者對價格的偏好程度越高。此類消費者為價格敏感型消費者,表現(xiàn)為某時隙價格越高,消費者對此時隙的選擇可能性就越小。
高價格訂單的消費者對交付期敏感,對時隙價格不敏感,而低價格訂單的消費者則相反。對此,考察訂單等級與消費者放棄訂單次數(shù)的關(guān)系。按照訂單價格細分訂單等級:A等級訂單的價格服從均勻分布[50,150],B等級訂單的價格服從均勻分布(150,250],C等級訂單的價格服從均勻分布(250,350]。對消費者放棄訂單次數(shù)進行模擬,訂單等級越高β2值越小。圖2是消費者放棄訂單次數(shù)頻數(shù)直方圖,放棄訂單次數(shù)在20到100之間,對頻數(shù)不超過10的數(shù)據(jù)未在圖中標(biāo)示。
從圖2的結(jié)果可知,受運能的限制,消費者放棄這3個等級訂單的次數(shù)較為穩(wěn)定,大部分在[50,80)中。A等級訂單屬于低價格等級訂單,消費者放棄該類訂單的次數(shù)比其余兩類訂單的少;C等級訂單價格較高,消費者放棄該類訂單的次數(shù)較多。C等級訂單的消費者對時隙價格不敏感,其選擇行為主要是由時隙的交付期和運能決定的,A等級訂單消費者則相反。
綜上,提出如下建議:對網(wǎng)絡(luò)零售商配送運能不足的問題,通過預(yù)測訂單量和時隙選擇行為進行運能規(guī)劃,提前租賃車輛填補運能,做到及時發(fā)貨、準(zhǔn)時配送;通過時隙定價均衡時隙運能分配,降低物流人員的工作壓力;采用低價促銷、組合促銷等吸引消費者購物,增加邊際效益;提高信息技術(shù)水平,建設(shè)智能化倉庫,加快訂單處理速度。
3 結(jié)束語
根據(jù)消費者對網(wǎng)絡(luò)零售配送時隙的偏好,分析影響偏好的因素,建立Logit模型并作為強化學(xué)習(xí)(RL)動作挑選的策略,同時設(shè)置運能配置規(guī)則。通過算例分析發(fā)現(xiàn):在B2C環(huán)境的訂單運能分配中采用RL方法能夠使每輛車每時隙的運能分配得到均衡,并且符合消費者對交付期的偏好;消費者對商品價格和時隙價格的偏好程度越高商家收益就越低,對整體價格偏低的訂單,建議商家通過接收更多此類訂單來增加邊際效益。算例分析得出的結(jié)果與市場經(jīng)濟現(xiàn)象相符合,說明基于RL解決在線訂單配送時隙運能配置問題是科學(xué)和有效的。
在今后的研究中,希望加入運輸成本因素,考慮運能外包或租用運輸車輛的情況;同時可根據(jù)消費者的訂單配送需求的緊急情況,對訂單進行分類處理,把運能優(yōu)先分配給愿意額外多支付配送費用的加急訂單。
參考文獻:
[1]AGATZ N, CAMPBELL A, FLEISCHMANN M, et al。 Time slot management in attended home delivery[J]。 Transportation Science, 2011, 45(3): 435449。 DOI: 10。1287/trsc。1100。0346。
[2]CAMPBELL A M, SAVELSBERGH M W P。 Decision support for consumer direct grocery initiatives[J]。 Transportation Science, 2005, 39(3): 313327。 DOI: 10。1287/trsc。1040。0105。
[3]SROUR F J, AGATZ N, OPPEN J。 Strategies for handling temporal uncertainty in pickup and delivery problems with time windows[J/OL]。 Transportation Sciences, Articles in Advance: 117[20160514]。 http://dx。doi。org/10。1287/trsc。2015。0658。
[4]陳淮莉, 馬娟娟。 區(qū)域和時隙寬度影響下網(wǎng)絡(luò)零售商配送時隙激勵定價[J]。 上海海事大學(xué)學(xué)報, 2015, 36(1): 3337。 DOI: 10。13340 /j。jsmu。2015。01。006。
[5]李科峰, 陳淮莉, 孔德寬, 等。 網(wǎng)購環(huán)境下基于時隙配送的時效產(chǎn)品訂單履約方法[J]。 華中師范大學(xué)學(xué)報(自然科學(xué)版), 2015, 49(4): 557561。
[6]元鵬鵬, 郝楊楊, 李恒。 客戶選擇網(wǎng)絡(luò)零售配送時隙動態(tài)規(guī)劃模型[J]。 遼寧工程技術(shù)大學(xué)學(xué)報(自然科學(xué)版), 2015, 34(11): 13161323。 DOI: 10。11956/j。issn。10080562。2015。11。020。
[7]郝鵑, 余建軍, 周文慧。 基于平均強化學(xué)習(xí)的訂單生產(chǎn)方式企業(yè)訂單接受策略[J]。 計算機應(yīng)用, 2013, 33(4): 976979。 DOI: 10。3724 /SP。J。1087。2013。00976。
[8]趙紹航。 供應(yīng)鏈聯(lián)合補充問題的強化學(xué)習(xí)算法[D]。 哈爾濱: 哈爾濱理工大學(xué), 2015。
推薦閱讀:試論中小企業(yè)電子商務(wù)的運營模式與路徑
互聯(lián)網(wǎng)與信息技術(shù)的發(fā)展使社會生產(chǎn)和生活發(fā)生了根本性的變化,電子商務(wù)也逐漸流行起來,在這種形勢下,中小企業(yè)的發(fā)展也面臨著一定的限制。要想在激烈的市場競爭中穩(wěn)定的發(fā)展,必須根據(jù)自身的發(fā)展情況選擇適當(dāng)?shù)倪\營模式和路徑。本文將探究中小企業(yè)電子商務(wù)的運營模式與路徑選擇。