论文部分内容阅读
随着计算机技术的发展和互联网应用的普及,各个领域可获取的数据呈爆炸式增长的趋势。图作为一种常用的数据表示模型,能够表达更复杂的结构模式和更一般性的语义信息,因此与大图数据相关的技术正在成为研究热点。频繁子图挖掘是图数据管理与分析的重要方法之一,其任务是根据支持度找到输入图数据中频繁出现的子图。随着图数据规模的不断增大,传统面向图集的算法无法直接应用于像社会网络或Web结构这样复杂的单图中。 针对上述问题,本文提出了一种频繁子图挖掘算法——KFSM算法,能够在大规模单图数据中快速挖掘出所需的频繁子图。KFSM算法首先挖掘出一棵极大频繁树,然后基于极大频繁树挖掘出频繁子树,并通过添加频繁边,最终得到频繁子图。算法采用了一种可压缩的树形结构来记录子图及其实例,将复杂的子图同构测试简化为一步邻居计数操作,极大地减少了挖掘时间,同时节约了存储空间。另外,KFSM算法通过限制频繁子图的顶点个数,确保用户能够高效地挖掘所需的频繁子图,避免了大量不必要的时间代价。 在模拟数据集和真实数据集中进行实验的结果表明,与已有算法相比,当输入图数据规模越大、复杂程度越高时,KFSM算法能够在更短时间内挖掘出更大更丰富多样的频繁子图。如果进一步放宽最小支持度和最大顶点数的限定条件,KFSM算法在效率方面的优势将会更加显著。