论文部分内容阅读
目前,移动轨迹数据正成为研究热点,它为智慧城市以及研究城市计算的领域提供了重要的数据基础。出租车GPS轨迹数据的挖掘、分析与利用,为解决城市问题提供了新思路。本文基于改进的CLIQUE网格聚类算法和FP-growth算法对出租车GPS轨迹数据进行关联规则挖掘及应用。针对出租车热点区域推荐的问题,本文研究的主要内容及创新点如下:(1)使用基于高斯随机分布的自适应网格聚类算法(An improved CLIQUE based onGaussian Processes and adaptive division,GPAD-CLIQUE),改进了 GP-CLIQUE 算法的如下缺点:硬网格划分导致不当划分并破坏原始密集区域完整性的缺点,硬网格划分算法聚类结果对密度阈值非常敏感的缺点以及最小描述长度的策略剪枝导致密集单元不完整的缺点。并通过实验比较使用的GPAD-CLIQUE算法和基于高斯随机分布的CLIQUE网格算法以及CLIQUE网格算法对数据集进行网格聚类的结果,发现GPAD-CLIQUE算法在聚类结果中误码率相对较低,可靠性更高。(2)针对FP-growth算法需要扫描两次数据库才能构建FP-tree的情况,本文使用一种基于项集交叉子集的FP-growth算法,该算法只需扫描一次数据库即可构建FP-tree。基于项集交叉子集的运算特点来构建有序的频繁模式树,利用下一层结点信息包含上一层结点信息的改进FP-tree存储方法,只需扫描一次数据库即可挖掘频繁项集,并基于Spark框架对TCFPM算法、基于布尔矩阵的FP-growth算法、并行FP-growth算法进行对比实验,实验结果表明,TCFPM算法具有更高的加速比和更好的可扩展性。(3)对GPAD-CLIQUE算法和TCFPM算法的实验结果进行分析,分析停留点的统计结果,研究停留点的数量分布及变化与不同时间段内兴趣点分布的关系,和不同类别的兴趣点的变化规律以及不同时间段内被兴趣点影响的市民行为活动规律;对兴趣点进行聚类,将所有兴趣点划分成以兴趣点核心为圆心的集合,基于时间段和兴趣点的影响力综合为出租车司机推荐兴趣度集中的热点区域。