久久人人爽爽爽人久久久-免费高清a级毛片在线播放-国产高清自产拍av在线-中文字幕亚洲综合小综合-无码中文字幕色专区

學術咨詢

讓論文發表更省時、省事、省心

集時空聚類和指標篩選的公共交通通勤者識別

時間:2021年07月19日 分類:科學技術論文 次數:

摘要:通勤者作為公共交通乘客構成的核心部分,其識別提取是此類人群特征分析的前提。本文基于南京市常規公交、軌道交通和公共自行車的刷卡與設施數據,進行公共交通通勤者識別。首先,根據數據信息是否完整,分別采用兩步聚類法和線路相似性整合法提取相似

  摘要:通勤者作為公共交通乘客構成的核心部分,其識別提取是此類人群特征分析的前提。本文基于南京市常規公交、軌道交通和公共自行車的刷卡與設施數據,進行公共交通通勤者識別。首先,根據數據信息是否完整,分別采用兩步聚類法和線路相似性整合法提取相似性出行;然后,識別職住地;最后,通過出行天數、單次出發時間差和工作往返出發時間差項指標完成篩選。經通勤調查驗證和方法有效性比較,各類參數取值合理,方法有效并存在應用優勢。本文提出的通勤識別方法將出行時空規律與指標篩選緊密結合,并考慮了數據完備與不完備條件下的不同數據處理思路,方法通用性和操作性強,識別結果能夠為公共交通通勤乘客特征分析提供數據基礎,有效指導后續城市公共交通設施布局和和服務優化。

  關鍵詞:公共交通;通勤識別;時空聚類算法;通勤者;多源數據;相似性出行

公共交通

  引言

  通勤出行在城市出行總量中仍占據絕對多數,同時存在明顯的時空規律性,較為適合公共交通方式通過線路布設、班線運營等方面的高效組織,提升城市交通資源的使用效率。公共交通通勤者識別作為后續此類群體出行特征分析的基礎工作,在公共交通規劃與管理研究中至關重要。早期由于技術限制,國內外文獻多通過傳統通勤調查或居民出行調查研究公共交通通勤特征,直接從被調查的通勤乘客中分析使用公共交通工具出行的乘客特征;后期隨著信息技術的發展,學者大多基于公共交通刷卡數據,輔以其他數據或者機器學習等新技術手段,來開展公共交通通勤人群的識別研究。

  交通論文投稿刊物:《城市公共交通》(月刊)創刊于1989年,是中國土木工程學會、北京市公共交通總公司暨城市公共交通專業分會主辦及編輯出版的、公開發行的綜合指導性學術期刊。

  目前較為常見的依托公共交通刷卡數據的通勤者識別方法大致分為三種:一是利用刷卡數據中的“卡類型”字段來識別,部分國家如日本會發行針對通勤(學)人群的“通勤票”;二是融合公共交通刷卡數據、空間數據、出行調查數據等數據來識別,如識別職住地后再提取公交通勤者出行信息;三是僅使用公共交通刷卡數據,從時間的重復性和穩定性角度設置識別規則,包括一周首次刷卡總次數和首次刷卡時間差、高頻OD對的出行頻次和出發時間標準差等指標,或是利用聚類、分類、神經網絡10等機器學習算法進行判別。

  目前研究較多直接對指標設定篩選規則來識別公共交通通勤者,選取指標時主觀性較強,閾值設定單一,無法較完整和準確地表征通勤者出行規律;而僅使用機器學習算法識別時,仍存在指標計算復雜、對通勤者表征程度不足的問題;同時,識別方法較少考慮實際數據質量,實用性較弱。

  因此,本文基于南京市公共交通系統刷卡和設施數據,提出一種集時空聚類和指標篩選的公共交通通勤者識別方法,以時空密度聚類算法(DensityBasedSpatialClusteringofApplicationswithNoise,STDBSCAN)為基礎算法,根據數據情況提出兩步聚類法和線路相似性整合法,為基于職住地與指標識別的篩選操作縮小了識別范圍,可操作性和通用性強,能夠為公共交通通勤乘客的相關分析提供數據基礎,同時對公共交通設施與服務優化提供一定的參考依據。1研究數據

  1.1數據描述

  本文以南京為案例,研究的公共交通系統數據分為刷卡和設施數據兩類,時間范圍為2019年12月。(1)刷卡數據包括公交、軌道交通和公共自行車刷卡數據,包括乘客個人和乘車時空信息(其中公交刷卡數據受一票制計費和設備記錄影響,下車均無位置信息,部分上車無位置信息),匿名乘客編號項成為公共交通系統乘客的唯一標識。(2)設施數據為這三類公共交通方式的線路和站點信息,包括站點線路編號和空間信息。

  1.2數據處理

  通勤者的通勤出行具有時空和模式上的穩定性,可以作為通勤者識別的依據。乘客每次公共交通出行的信息提取是基礎,需要對數據進行預處理、換乘識別和出行信息整合操作。Step1數據清洗。剔除錯誤和重復數據,統一字段格式,并將刷卡表整合為一份公共交通系統刷卡數據,共2,239,532條數據。Step2換乘識別。由于存在同一次出行對應多條數據的情況,故需要識別乘客的換乘行為,將不同出行階段的記錄整合為一條出行記錄。本文采用經緯度空間距離計算與公交線路可換乘站點提取并行的方法,判別空間層面方式間換乘的可行性,閾值設為500m11。

  將相鄰出行階段記錄的時間差與95%分位時間閾值比較,得出最終的換乘行為識別記錄。Step出行信息整合。將每位乘客每日每次出行的第一階段出發地信息作為該次出行的出發地信息,最后一階段的到達地信息作為該次出行的到達地信息,整理后得到1,562,668條公共交通出行數據。本文基于出行時空規律性來識別通勤者,故需要提取出部分關鍵的出行字段(如表所示),包括乘客編號USERID、出發時間ONTIME、出發地經度ON_LNG、出發地緯度ON_LA、到達地經度OFF_LNG、到達地緯度OFF_LAT以及乘坐線路名稱TRIPROUTE。

  2通勤者識別方法

  2.1識別思路

  本文所提識別方法分為相似性出行整合和兩步篩選兩個步驟:首先,依據乘客在研究周期的出行集合中是否存在相似性出行,對乘客進行初步篩選,以獲得具有規律性出行特征的候選通勤者;然后,通過識別候選通勤者的職住地并完成對應的通勤出行初步提取操作,再利用識別指標進行篩選,以得到最終的通勤者識別結果。

  2.2相似性出行整合法

  本文中的相似性出行是指具有相似起訖點位置和出發時間的出行集合,每位乘客在研究周期內的出行都將被分為不同的組別,同一組別的出行即為同一類出行。類似地,時空聚類指的是根據一定的相似性準則將時空實體劃分成一系列較為均勻的子類(即時空簇),其中相似性的判定依據為時空聚類中的聚類參數,時空實體在本研究中即為公共交通出行,聚類結果即為相似性出行,每次出行記錄均被賦予對應的組別號?紤]到公交刷卡記錄存在信息缺失問題,故將相似性出行整合法分為兩類:數據完備時,采用基于STDBSCAN算法的兩步聚類法;數據不完備時,對缺失數據采用線路相似性整合法,與完整數據的兩步聚類結果進行整合。

  2.2.1基于密度的時空聚類算法(STDBSCAN)

  本文將STDBSCAN算法作為基礎算法的原因在于:(1)該算法考慮時間和空間雙重要素、可識別高密度的簇和低密度的噪聲、無需確定初始核和簇數量等優勢,常被用于出行模式劃分領域。(2)本文所獲取的出行數據位置為經緯度信息,相比其他算法研究使用的站點編號更為精確,適用于空間聚類算法。算法是將時空實體的時空鄰近域的空間形狀定義為一個圓柱體,底面半徑為,高為△,該鄰近域內的實體數目即為ST的密度,當密度大于等于設定的最小密度值MinPts時,該實體ST即為核心對象。若ST+1位于核心對象ST的時空鄰近域,則ST+1從ST直接密度可達;密度可達是直接密度可達的傳遞閉包,密度相連是密度可達的傳遞,且為對稱關系。

  時空鄰近域的劃定和最小密度的取值為算法關鍵參數,即空間半徑、時間窗口△和密度閾值MinPts。本文基于一整月的研究數據進行聚類操作,通過多參數組合比選,將輪廓系數和值作為聚類效果評價指標,并依據肘部法則,最終選定參數=1200m,△=30min,inPts=5。和△分別代表本研究中位置和出發時間相似的判定范圍,即相似出發時間差距應≤60min(△),相似位置差距應≤1200m();而MinPts=5則代表位于相似判定范圍的出行記錄數應≥個,即同類時空出行的次數不小于次月。

  2.2.2數據完備條件下的兩步聚類法

  當每次出行的出發地經緯度、到達地經緯度和出發時間個要素齊全時,經以下步驟可完成對每位乘客多次出行的聚類操作。

  Step1對每次出行的出發地經度、緯度和出發時間進行STDBSCAN算法聚類,得到Cluster1。以USERID=42的乘客出行為例,分為噪聲點、Cluster1=1和Cluster1=2三類。噪聲點(圓圈)的位置和出發時間較分散,而Cluster1=1(三角)和Cluster1=2(方塊)的位置和出發時間相對集中。Step2對每次出行的到達地經度和緯度進行DBSCAN算法聚類,得到Cluster2。乘客在此步的聚類結果,分為噪聲點、Cluster2=1和Cluster2=2三類。

  Step3對每次出行,將對應的Cluster1和Cluster2直接組合為最終聚類結果Cluster3(如Cluster1=1且Cluster2=1時,Cluster3=1)。只有Cluster1和Cluster2取值均非噪聲時,Cluster3按類別順序取值。乘客的最終聚類結果如圖(c所示,分為噪聲點、Cluster3=1和Cluster3=2三類。噪聲點(細實線)代表無規律的出行,Cluster3=1(粗實線)的出發地、到達地位置和出發時間均集中,代表一類具有時空相似性的出行集合,Cluste=2(粗虛線)代表另一類相似出行集合。

  2.2.3數據不完備條件下的線路相似性整合法

  當部分出行的起終點位置存在缺失時,無法按上述數據完備條件下的方法完成聚類,因此將出發時間和乘坐線路名稱兩個字段作為判別屬性,即考慮出行時間和線路選擇的穩定性,將符合要求的出行加入到數據完備條件下的聚類結果中,得到最終整合結果。

  步驟如下:Step1對出行數據按乘坐線路名稱字段分組為Class1,提取頻次≥2的Class1,并對每個Class1分組進行出發時間的聚類,提取其中頻次≥2的子類為Class2;Step2將每個Class2子類中出行數據的出發時間與數據完備條件下聚類結果的各分組Cluster3出發時間均值相比較,若低于30min則將此Class2子類的類別號更新為Cluster3分組的類別號,另外若Class2子類中超過60%的出行未加入Cluster3分組,該子類自成一類;Step3將處理后的Cluster3和自成一類的Class2進行整合,得到最終的聚類結果CLUSTER_FINAL。以USERID=9的乘客出行為例,該乘客一月共56次公共交通出行,其中信息完整和不完整的出行均為28次。對信息完整的28次出行進行兩步聚類法。

  得到噪聲和Cluster3=1兩組(圖中未標注噪聲數據)。然后,對信息不完整的28次出行進行操作,得到的13條非噪聲數據結果。其中Class2=1分組的出發時間與Cluster3=1的出發時間相近,故將其加入Cluster3=1分組,而Class2=2分組自成一類。經過兩步聚類法和線路相似性整合法操作后,得到最終聚類結果為噪聲、CLUSTER_FINAL=1和CLUSTER_FINAL=2三組。

  2.3基于職住地與指標識別的兩步篩選法

  2.3.1基于職住地識別的通勤出行標識

  在提取通勤出行前,需要先對每位乘客的職住地進行判別。一般假設乘客每日首次出行的出發地是居住地7],通過對乘客的長期出行數據進行空間密度聚類可較易得到,點數最多的簇的空間位置即為居住地所在區域。

  而工作活動僅為日;顒又械囊活,難以直接識別工作地?紤]到通勤出行的規律性特征,統計處理乘客的相似性出行可識別出工作地,步驟如下:Step基于上文得出的相似性出行數據,對從居住地出發出行的到達地和到達居住地出行的出發地進行空間密度聚類,空間閾值仍取1200m,密度閾值為個;Step2統計聚類結果中各簇的點數,點數最多的簇所在空間位置即為工作地所在區域。將從居住地出發和到達工作地頻次最高的組別內出行標記為上班,反之為下班。對于公交出行記錄位置缺失導致的部分出行起訖點所屬類別無法識別問題,可根據同類別相似性出行的標識結果或根據出發時間來確定。

  3參數驗證和方法有效性比較

  通勤者識別過程中的相似性出行整合和指標篩選操作需要確定多項閾值,其對識別效果具有重要影響?紤]到數據獲取滯后性及匿名性,本文結合參數驗證和方法有效性比較驗證結果。通過問卷調查獲取公共交通通勤者在通勤出行頻次、時間等方面的真實特征,以驗證本文所提方法中的指標取值合理性。

  4結束語

  本文融合時空聚類和指標篩選思路進行公共交通通勤者識別,以時空聚類算法中的STDBSCAN算法為基礎算法,進行具有相似出行OD和出發時間的出行整合操作,并選取出行天數、單次出發時間差和工作往返出發時間差項指標作為通勤識別指標完成二次篩選。基于南京市數據,經時空聚類,發現樣本中55.6的乘客不滿足本文設定的出行時空規律;經指標篩選后得到的公共交通通勤者人均出行頻次為55次月,工作日出行明顯集中于6:009:00和16:0019:00時段,符合傳統對通勤者特征的認知,但樣本中66.7的通勤者不完全在傳統早晚高峰時段進行通勤,本文識別結果較貼合實際通勤者更加多樣化的通勤特征。

  區別于傳統研究的指標篩選思路,本文所提的通勤識別方法存在四點優勢:(1)不局限于傳統早晚高峰時段,注重出行的時空規律性;(2)基于出行起終點的經緯度位置進行聚類,相比站點聚類更為精準;(3)針對數據完備與不完備條件提出不同的處理方法,更符合實際數據狀況;(4)基于相似性整合結果利用指標二次篩選,補充通勤者其他特征的判別條件。識別結果可為公共交通通勤者的特征分析以及相應設施布局和服務優化提供研究基礎,如多層次通勤公共交通服務體系的構建。由于STDBSCAN算法在時空域上具有一定的延展性,以及參數設置對識別結果存在影響,后續研究可考慮增加簇中時空閾值的限制,同時結合實際數據擬合識別指標,分析取值不同時通勤者與非通勤者的特征差異性,以改進方法并進一步論證,使結果更為符合通勤者出行特征規律。

  參考文獻:

  [1]KusakabeT,AsakuraY.Behaviouraldataminingoftransitsmartcarddata:Adatafusionapproach[J].TransportationResearchPartC:EmergingTechnologies,2014,46:179191.

  [2]ZhouJ,MurphyE,LongY.CommutingefficiencyintheBeijingmetropolitanarea:anexplorationcombiningsmartcardandtravelsurveydata[J].JournalofTransportGeography,2014,41:175183.

  [3]王振張志敏,高洪振.基于軌道交通客流的通勤特征分析[C]//創新驅動與智慧發展——2018年中國城市交通規劃年會論文集.北京中國建筑工業出版社2018.

  [4]李軍,鄧紅平.基于公交IC卡數據的乘客出行分類研究[J].重慶交通大學學報(自然科學版),2016,35(6):109114.

  作者:周航1,陳學武2,3,4

NOW!

Take the first step of our cooperation邁出我們合作第一步

符合規范的學術服務 助力您的學術成果走向世界


點擊咨詢學術顧問