1、第 48 卷第 1 期2023 年 2 月Vol.48 No.1Feb.2023测绘地理信息Journal of Geomatics北京市出租车载客热点路段挖掘及分析孟妮娜1 李金秋1 高晨博1 王正阳11 长安大学地质工程与测绘学院,陕西 西安,710054Excavation and Analysis of Hot Sections for Taxi to Carry Passengers in BeijingMENGNi na1 LIJinqiu1 GAOChenbo1 WANGZhengyang11 School of Geoengineering and Mapping,Chang
2、an University,Xi an 710054,China摘要:从出租车轨迹数据中挖掘载客热点路段,能够为城市交通道路的规划和出租车的运营管理提供重要依据。以北京市出租车原始轨迹数据为基础,设计并建立了出租车载客行驶的载客数据模型,利用该模型对相似的载客轨迹信息进行了挖掘,结合时空信息提取并分析了不同时段的热点路段。通过北京市交通发展年度报告验证了该模型和挖掘方法的正确性和有效性。关键词:出租车轨迹;载客数据模型;路网匹配;最长公共子序列(longest common subsequence,LCSS)方法;热点路段中图分类号:P208;U121文献标志码:AAbstract:The m
3、ining of the hot sections for taxi to carry passengers from trajectory data of taxis can provide an important basis for urban traffic road planning and taxi operation and management.Based on the original trajectory data of taxis in Beijing,we design and build a passenger data model of taxi carrying
4、passengers.We use the model to mine similar passenger carrying trajectory information,and extract and analyze the hot sections in different time periods by combining spatiotemporal information.Finally,we use the annual report of Beijing transportation development to verify the correctness and effect
5、iveness of the proposed model and mining method.Key words:taxi trajectories;passenger data model;road network matching;longest common subsequence(LCSS)method;hot section出租车是城市居民重要的出行方式之一,以出租车 GPS轨迹数据为基础,通过空间统计分析和可视化技术可以挖掘城市居民出行的时空分布特征,发现整体的运动趋势1。热点路段通常指出租车频繁经过的路线2,能在很大程度上反映车辆的移动模式、居民的出行规律及城市交通状况。目前热
6、点路段的提取方法主要有基于道路连通性的高流量路径分析、轨迹相似性度量等3,4。常用的轨迹相似性度量方法有欧氏距离法5、动态时间规划(dynamic time warping,DTW)方法6和最长公共子序列(longest common subsequence,LCSS)方法。欧氏距离法要求两条轨迹长度相同,应用场景受限。DTW 方法可被用于点数不同的轨迹,但对噪声非常敏感7。LCSS 方法最早被用于计算两个字符串的公共子序列,后被用于度量两个序列的相似性8,该方法可以跳过一些噪声点9,且适用于点数不同的轨迹。因此,本文拟选用 LCSS 方法从轨迹相似性角度来挖掘出租车载客热点路段。首先建立出租
7、车的载客数据模型,把一次完整的载客认定为“上客-载客-下客”过程,将每条载客行驶轨迹存储为一个序列,通过路网匹配赋予轨迹数据路网语义信息,得到具有路网信息的载客数据模型数据库;然后基于该数据库,使用轨迹间最小距离判断轨迹间是否有交集,筛选有交集的轨迹,利用 LCSS方法度量出租车载客行驶轨迹相似性,得到相似的轨迹集合,提取出租车载客行驶的热点路段,对不同时间段的热点路段的异同进行分析与展示;最后根据北京市交通发展年度报告检验提取结果。1 出租车载客数据模型建立1.1载客数据模型的建立本文原始数据为 2017年北京市 14 140 700条出租车 轨 迹 数 据,包 含 的 字 段 主 要 有
8、车 辆 ID(ID_CAR)、触发事件(EVENT)、运营状态(STATE)、DOI:10.14188/j.2095-6045.2022167文章编号:2095-6045(2023)01-0068-05引用格式:孟妮娜,李金秋,高晨博,等.北京市出租车载客热点路段挖掘及分析 J.测绘地理信息,2023,48(1):68-72(MENG Ni na,LI Jinqiu,GAO Chenbo,et al.Excavation and Analysis of Hot Sections for Taxi to Carry Passengers in Beijing J.Journal of Geoma
9、tics,2023,48(1):68-72)基金项目:国家自然科学基金(41501498);陕西省自然科学研究计划(2021JM-155)。第 48 卷第 1 期孟妮娜等:北京市出租车载客热点路段挖掘及分析GPS时间(GPSTIME)、GPS经度(LONGITUDE)、GPS纬度(LATITUDE)、GPS速度(SPEED)、GPS方向(DIRECTION)、GPS状态(GPSSTATE)。出租车的触发事件和运营状态各有 5 个值,分别代表不同的事件和状态,运营状态大多是载客行驶和空载行驶,而只有载客行驶过程可以反映真正的热点路段与居民出行规律。因此,本文建立了如图 1所示的出租车载客数据模型
10、。单个一次载客过程只包括出租车上客、载客行驶和下客状态,每个状态 的 判 断 条 件 如 下:出 租 车 开 始 载 客 状 态:EVENT=1 且 STATE=1;出租车载客行驶状态:EVENT=4且 STATE=1;出租车下客状态:EVENT=0且 STATE=0。根据每条数据 EVENT 和 STATE 的数值,运用 if条件语句和 for循环进行判断,将满足载客数据模型的数据存储到新文件中,筛选得到 334 650条出租车载客轨迹数据记录。1.2道路语义属性匹配原始轨迹数据没有道路语义信息,不能直接反映车辆与路网的相对位置关系10。需要建立轨迹数据与道路网络的关联,赋予车辆轨迹数据完整
11、的路网语义信息11,得到具有路网信息的出租车载客数据模型数据库。根据出租车载客数据模型,在使用常规的最短距离原则进行路网匹配的基础上,综合几何信息(GPS 点与道路的距离)和 GPS 轨迹点之间的关联性(GPS方向等)来精确路网匹配结果。本文用到的路网底图数据是在 OpenStreetMap下载的北京市路网数据,有道路 ID及道路名称等属性。出租车 GPS轨迹点与路网的匹配算法如下:1)加载出租车 GPS 轨迹数据及路网基础数据,并设定角度阈值和。2)读取 GPS轨迹数据文件中的一行记录,记为P1,查找离此点最近的路网线段,判断车辆GPS方向,记为1,再计算轨迹点GPS方向,查得路网夹角1。3
12、)将下一个轨迹点记为P2,重复步骤 2),得到方向2和夹角2。先计算并判断1和2间的差值,若小于,则判定车辆还处于同一方向的道路中;再判断1与2的差值是否小于,若小于,则判定 GPS轨迹点属于查询得到的最近路网线段,保存路网 ID信息至 GPS轨迹点数据,若差值大于,则视为异常的 GPS轨迹数据,将其删除,并返回本步骤。4)若1和2之间的差值大于设定的角度阈值,则判定车辆已转向,返回步骤 2)。5)判断轨迹点数据文件是否读完,若未读完,则返回步骤 2)。6)输出已完成路网匹配的出租车 GPS 轨迹点数据到新文件中。经过路网匹配处理操作后,每个 GPS轨迹点都对应一个道路名称属性。最终匹配得到
13、322 436 条出租车载客轨迹数据记录,匹配正确率为 96.35%。2 基于 LCSSLCSS方法的热点路段挖掘1)输入出租车一次载客轨迹集合C,设定最小距离阈值和轨迹相似性阈值。2)将两条轨迹点数分别为m和n的轨迹表示为Ci=r1,r2,rm和Cj=s1,s2,sn。Ci的邻域内的所有轨迹的集合为Ci(),Cj为Ci()的单条轨迹。3)计算Ci中轨迹点与Cj中轨迹点间的最小距离Dmin,比较Dmin与的大小,若Dmin,返回本步骤;若Dmin,则Ci与Cj有交集。Dmin计算公式如下:Dmin=mind(rp,sq)rp Ci,sq Cj(1)4)计算有交集的两条轨迹Ci与Cj所有轨迹点的
14、距离差Dij,判断Dij小于阈值的轨迹点对数是否大于12min(m,n),若大于,则将两条轨迹放入可能相似的轨迹集合Ci(Msim);若小于,则两条轨迹不相似,返回步骤 3)。5)判断轨迹集合Ci()中的轨迹Cj是否读取并处理完毕,处理完毕得到与轨迹Ci可能相似的所有轨迹集合Ci(Msim);若未处理完成,则返回步骤 3)。6)对于初步判定为相似的轨迹Ci和轨迹集合Ci(Msim)中的Ce,使用 LCSS 方法计算轨迹的最长公共子序列的长度12:LCSS(Ci,Ce)=0,Ci=Ce=1+LCSS(rp-1,sk-1),d(rp,sk)max(LCSS(rp-1,sk),LCSS(rp,sk-
15、1),其他(2)式中,是判断轨迹点对是否相似的阈值;rp、sk分别为Ci、Ce中的点,p=1,2,m,k=1,2,n。图 1出租车载客数据模型Fig.1Data Model for Taxi to Carry Passengers69测绘地理信息2023 年 2 月7)两条轨迹的最长公共子序列长度与其轨迹点数的比值P(0 P 1)越大,则两条轨迹越相似。用轨迹相似性阈值判断其相似性,若P,将两条轨迹放入相似轨迹集合Cisim;若P,返回步骤6)。8)判断轨迹集合Ci(Msim)中的轨迹是否处理完,处理完毕得到Cisim,未处理完则返回步骤 6)。9)判断轨迹集合C中的轨迹是否全部处理,处理完毕
16、得到相似轨迹集合Csim,否则返回步骤 2)。10)结合路网信息,在相似轨迹集合中提取热点路段,输出相似轨迹集合、比值P和出租车载客行驶热点路段。3 实验及分析3.1实验及结果本文所用数据为北京市 2017-11-172017-11-30的出租车轨迹数据,涉及工作日与休息日,对工作日和休息日两个高峰时段的热点路段进行挖掘。北京市核心区东城区道路的平均宽度为 10.93 m;西城区主干道宽度为 44.27 m,次干道宽度为 21.1 m,街坊路宽度 9.9 m。包括小区道路在内,北京市的城市道路平均宽度为 14.64 m,因此最小距离阈值取 14 m。阈值和的大小会影响相似轨迹的提取结果,经多次实验,本文取=5 m,=0.7。本文以工作日早高峰时段(07:0009:00)的轨迹数据为例进行热点路段的提取,共 24 180 个轨迹点数据记录,490条出租车载客行驶轨迹,工作日早高峰路段热点程度见图 2。工作日和休息日不同高峰时段出租车载客行驶热点路段的数量见表 1。3.2高热点路段比较与分析1)工作日不同时段高热点路段。工作日早高峰和晚高峰高热点路段分布如图 3(a)和图 3(b)所示。将