计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (08): 1383-1392.
王星苏1,熊文1,张瑞2
WANG Xing-su1,XIONG Wen1,ZHANG Rui2
摘要: 当前主要的轨迹相似性连接方法都以GPS轨迹为研究对象。针对GPS轨迹的优化方法无法直接用于解决地铁乘客轨迹相似性连接的问题,充分利用地铁乘客轨迹的时空特征,借助轨迹的重复性和对称性,将轨迹从点序列转化为OD序列。以OD序列为基础的轨迹,长度是原轨迹的一半,对应的索引空间变小,后续的计算量也随之减少。着重研究了基于PPJoin+的轨迹连接算法在Spark平台上的设计与实现。在一个13结点Spark集群和一个包含500万个乘客轨迹集合(5.6亿条刷卡记录)的超大规模数据集上验证了该算法的有效性。实验结果显示,基于OD序列的PPJoin+算法的执行时间为14.0 min,比默认的点序列轨迹连接算法的节约了62.5%,比Dima连接算法的节约了78.2%,并表现出了良好的可扩展性。