基于子图结构的频繁模式挖掘方法的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:dragonunderwater
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大量现实应用包括生物信息分析、化学制药、社会网络聚类等需要图挖掘技术的支撑,其中基于图中的频繁模式挖掘一直是一项核心研究,也引起了学术界和工业界广泛的高度重视。随着社会网络等领域的蓬勃发展,图规模不断增加,如何高效地挖掘图中的频繁模式成为一个亟待解决的研究课题。由于模式空间的爆炸性增长特性,使得在网络图中进行完全模式挖掘几乎不可能实现。因此,本文研究并提出基于频繁子图结构的方法来挖掘其中较大规模的Top-K频繁模式以满足应用需求。主要内容包括:   ●研究并设计了以(s)为半径的子图结构来表示图结构的方法,该方法将频繁模式表示成基于HOP结构的多重集合,使得子图同构检测问题被转化为集合匹配问题,有效地降低了检测的难度。   ●提出并实现了表示和挖掘频繁子图结构的方法。基于该子图结构将网络图转化为一系列(s)—HOP索引结构,避免了子图结构呈指数规模增长。形成的索引结构可以优化模式存储和查询,并且加快后续挖掘算法。   ●由于大规模网络中所包含的频繁模式数量级很大,因此本文旨在挖掘其中较大规模的Top-K频繁模式。这种模式所包含的顶点数目和边的数目较多,可以代表更丰富的语义信息,是模式中的典型。本文提出了一种基于频繁子图结构的Top-K频繁模式挖掘方法。并且在理论上证明了该方法可以在任意准确度范围内返回Top-K频繁模式。   基于实验验证和结果分析,本文提出的方法可以有效地挖掘网络图中的较大规模频繁模式,一定程度上解决了指数模式空间的搜索以及子图同构检测这两个图模式挖掘的瓶颈问题。
其他文献
近年来随着各种定位系统的广泛应用,以及其在工业、民用和军事领域的应用需求,声源探测和定位系统的研究已经成为新的研究热点。本文在总结前人的工作基础之上,主要通过对空
随着P2P网络的快速发展,越来越多的人在P2P网络上获取或者共享信息资源。资源共享已成为P2P网络最主要的应用之一,资源搜索机制的有效性是影响其应用能力的关键。当前如何设
交通分析是道路交通研究和管理的核心内容。在发现道路交通参数变化规律的基础上,对各个交通参数进行准确的预测,能够为路网规划、路径诱导等道路交通应用提供重要的决策支持
随着环境感知与地图生成技术的飞速发展,尤其是SLAM(SimultaneousLocalization And Mapping,同时定位与地图生成)取得了巨大的研究突破,基于移动平台多模态传感器的感知方法
电子政务系统发展突飞猛进,多应用性、分布性、多地域性成为大势所趋,电子政务在新环境下的安全问题成为研究热点,电子政务系统安全服务平台可以通过在安全基础设施与电子政
随着互联网的普及和网络数据量的迅速膨胀,网络信息抽取和整合变得尤为重要。当前,网络上存在大量的信息,这些信息以结构化的形式存储在网站的后台数据库中,通过模板包装成网
细胞内的很多重要生理过程,如细胞信号转导、免疫反应、基因复制、转录、翻译以及细胞周期调控等,都是通过蛋白质复合体或蛋白质分子间相互作用来完成的。因此要充分理解和认识
随着数据挖掘技术的不断发展和应用,决策树作为数据挖掘技术中的一个分类问题的解决策略,也越来越受到重视,并被不断的研究。目前研究决策树的算法很多,比较著名的有ID3算法、C4.
高分辨率数码相机的普及和网络传输带宽的增加造成了数字化图像的大量产生和堆积。大规模的图像数据库的有效管理与检索成为当前信息检索领域的重要课题。传统的基于内容的图
粒子滤波算法作为一种基于蒙特卡罗方法和递推贝叶斯估计的新方法,在处理非线性、非高斯系统的参数估计和状态滤波方面具有独到的优势,自上世纪90年代重采样算法被提出后,该