1、第 45 卷 第 2 期国防科技大学学报Vol 45 No 22023 年 4 月JOUNAL OF NATIONAL UNIVESITY OF DEFENSE TECHNOLOGYApr 2023doi:10 11887/j cn 202302006http:/journal nudt edu cn海量公交数据的人群画像算法*张锦1,2,张建忠1,汪飞3,郭芊1(1 湖南师范大学 信息科学与工程学院,湖南 长沙410006;2 长沙理工大学 计算机与通信工程学院,湖南 长沙410114;3 湖南师范大学 数学与统计学院,湖南 长沙410006)摘要:面向海量公交数据的人群画像对分析城市群体出
2、行特点、交通态势等极具价值,但对数据的处理存在耗时高、质量低、解释难等问题。提出一种海量公交数据人群画像的系统化解决策略,基于 Pageank算法筛选出经过重要站点的人群轨迹,极大减少目标人群的轨迹数据;提出轨迹文本化分析方法来提高人群画像的可解释性;分析确定基于余弦距离的 K-means 算法作为人群画像分类的聚类算法。该算法在3 000万乘客公交出行数据上的实验表明:提出的解决策略能够较为系统性地解决海量公交数据的人群画像问题,同时基于余弦距离的 K-means 算法的聚类效果最好且准确率约达 80%。将人群画像及其轨迹使用 Flow Map 进听语音聊科研与作者互动行可视化展示,结果符合
3、真实世界的人群行为特征。关键词:人群画像;Pageank 算法;轨迹文本化;文本聚类中图分类号:TP3-05文献标志码:A开放科学(资源服务)标识码(OSID):文章编号:1001 2486(2023)02 055 10Crowd profiling algorithm mass transit dataZHANG Jin1,2,ZHANG Jianzhong1,WANG Fei3,GUO Qian1(1 College of Information Science and Engineering,Hunan Normal University,Changsha 410006,China;2
4、School of Computer and Communication Engineering,Changsha University of Science and Technology,Changsha 410114,China;3 School of Mathematics and Statistics,Hunan Normal University,Changsha 410006,China)Abstract:Crowd profiling of massive transit data is valuable for analyzing the travel characterist
5、ics and traffic trends of urban groups,but theprocessing of the data is time-consuming,low-quality and difficult to interpret A systematic solution for crowd profiling of massive public transportdata was proposed Based on the Pageank algorithm,the trajectories of people passing through important sta
6、tions were filtered out,which greatlyreduced the trajectory data of the target population A textual analysis method for trajectories was proposed to improve the interpretability of crowdprofiling And the K-means algorithm based on cosine distance as the clustering algorithm for crowd profiling was a
7、nalysed and determined Theexperiments on 30 million passengers transit data show that the proposed algorithm can solve the problem of crowd profiling in massive transit datain a more systematic way,while the K-means algorithm based on cosine distance has the best clustering effect and the accuracy r
8、ate is about 80%The crowd profiling and its trajectory were visually displayed by using Flow Map,and the results are consistent with real-world crowd behaviouralcharacteristicsKeywords:crowd portraits;Pageank algorithm;trajectory textualization;text clustering现代公共交通技术利用先进的公交刷卡收费系统和公交刷卡信息数据库,记录着上百万条公
9、交出行数据。研究发现,充分挖掘和利用公交乘客的刷卡数据,可以准确地分析出个人或群体的活动规律1。这些规律有助于公交路线规划和车辆调度,也可支持城市规划、社会行为分析等多个领域。数据包括时空信息(上下车坐标、时间)和公交卡类型(成年卡、学生卡、老年卡)。存在三个问题:数据规模大,用聚类算法耗时长;公交轨迹点稀疏,聚类质量差;仅基于轨迹点聚类难以描述人群画像。多数对公交数据的研究只关注识别或预测活动地点和出行方式,揭示人们一天中的出发和停留地点2。乘客出行特征涵盖时间、地点、目的地和时长等方面,但由于国内城市公交刷卡信息*收稿日期:2021 02 26基金项目:国家部委基金资助项目(3151101
10、0105);湖南省自然科学基金资助项目(2021JJ30456)作者简介:张锦(1979),男,河南信阳人,教授,博士,博士生导师,E-mail:jinzhang hunnu edu cn;汪飞(通信作者),男,安徽枞阳人,讲师,博士,E-mail:wangfei hunnu edu cn国 防 科 技 大 学 学 报第 45 卷缺少持卡者类型描述,研究仅限于全客流出行模式特征的分析,无法描述不同年龄段的特征和挖掘不同人群的活跃模式3。文献 4 提出了由公交通勤出行模式的出行链提取的“四阶段法”。文献 5结合(point of interest,POI)数据探讨了乘客出行功能区分布规律。文献
11、6 通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)模型对每个热点区域不同时间段上下客流量进行分析,发掘乘客热点功能区域。此外,轨迹文本化是将轨迹以文本形式呈现,方便了解每条轨迹的出行地区属性。文献 7 提出了一种新的把轨迹数据转化成文本的形式,用适当的特征去描述轨迹,十分依赖文本化时提取的特征。文献 8 利用 bigram 主题模型提取轨迹主题,并设计了多个链接视图的视觉分析系统。文献 9 提出基于用户和 POI 概况的旅游推荐系统下使用的推荐模型和算法。文献 10 利用 POI等动态数据建立模型来描述空间使用率与车站区域的其他特征之间的关系。文献 11
12、提出基于重力的模型来估计中国上海市中心区域通勤模式。文献 12 以手机基站位置划分城市单元块,将 POI 与聚类结果的重叠率实现区域划分。文献 13 通过量化分析街区 POI 密度分值,进行武汉市核心城区功能分区。另外,轨迹聚类是指将轨迹数据集划分成若干个子集的过程,每个子集为一个簇,使得每个簇内的轨迹彼此高度相似14。其目的就是挖掘轨迹大数据的移动模式,通过对聚类结果分析得到移动对象的出行规律。文献 15提出了一种初始点优化与参数自适应的改进算法,优先对高密度簇进行聚类,即能对变化密度的数据集进行聚类。文献 16 提出了一种基于 MFTSM 的轨迹聚类算法,利用基于区域计算的位置距离来解决轨
13、迹的连续性问题。文献 17重新定义轨迹核心距离与轨迹可达距离,用邻接表代替空间索引来降低算法的复杂度。针对以上问题,结合上述学者的研究,本文根据公交出行轨迹的相似性来分析人群轨迹特征,再使用自然语言描述人群轨迹的特征,从而可以更加清晰地了解人群出行规律,描绘出人群画像,同时也能进一步挖掘不同人群(不同年龄段的乘客)在城市各个区域的隐藏活跃模式。此外,本文基于 Pageank 算法18 提出重点地区人群筛选方法,提取出行次数多、去热点地区多的乘客轨迹数据,减少非重点地区的轨迹数据,从而减少数据量、提高处理效率。同时,按年龄段和工作日或休息日划分乘客轨迹数据,串联每位乘客的轨迹,提升数据质量和后续
14、聚类算法的结果。将划分后的轨迹数据集与新加坡 POI19 数据融合,文本化表现每位乘客的轨迹,并使用文本聚类算法对人群文本轨迹进行分类,以得到易于解释的轨迹类别特征,即人群画像。1算法构建1 1算法流程本文的算法流程如图 1 所示。首先,将交通数据进行预处理,随后使用基于 Pageank 算法的人群筛选方法,从而减少数据量。再将筛选后的乘客刷卡数据串联起来,形成完整的轨迹数据。对于 POI 数据,首先将该数据预处理并将这些数据重新划分出 15 种功能性数据。随后将该数据与轨迹数据相结合,形成文本轨迹数据。最后通过使用聚类算法得到人群画像。图 1算法流程Fig 1Algorithm flow c
15、hart1 2数据预处理1 2 1公交出行数据预处理因为部分公交出行数据存在某些数据为空或数据字段偏移的情况,所以需要对数据进行整理。在对存在某些数据为空或数据字段偏移的数据进行数据规范化处理,并依据上下文补充数据和删除无法获取信息的数据后,得到了规范的公交出行数据。由于出行数据中原始 3 类人群(成年人、老年人和学生)出行方式差异较大,为便于更准确地描述人群画像,之后做了如下处理:1)截取清洗后的新加坡公交车连续一周内所有的公交车刷卡数据,并且将这些数据按照工65第 2 期张锦,等:海量公交数据的人群画像算法作日和休息日进行划分。2)将工作日和休息日的数据按照乘客年龄属性划分,得到的 6 组
16、数据分别为:成年人工作日的刷卡数据、成年人休息日的刷卡数据、老年人工作日的刷卡数据、老年人休息日的刷卡数据、学生工作日的刷卡数据和学生休息日的刷卡数据。3)将这 6 组数据中每日都有乘车记录且乘车次数至少为 2 的乘客数据筛选出来,最终得到了约 44 万名成年人乘客的刷卡数据、约 6 万名老年人乘客的刷卡数据和约 4 万名学生乘客的刷卡数据。1 2 2POI 数据预处理因为 POI 数据为英文数据,这些数据中存在描述地点相同,但是字母大小写不一致的数据,所以首先将 POI 数据字体变为小写字母,然后删除数据中重复、指向不明和无效的数据。此外,由于POI 数据的功能性指向过多,不利于后续工作的进行,将这些 POI 数据按功能性进行重新划分,把功能性相近的 POI 设置新的功能性,最后得到 15种功能性类别。这 15 类功能性分别为餐饮、商业零售、服务行业、公共服务、休闲娱乐、居住、教育、宗教场所、医疗、景点、金融、政府机构、交通站点、体育健身、公司企业。1 3人群筛选由于新加坡公交出行数据规模极大,此数据中每天有上百万条刷卡记录。如果直接将聚类算法使用在该数据中,会使聚类算法的时间消耗过