论文部分内容阅读
对等计算(简称P2P),自2000年中期以来迅速成为计算机研究界和工业界关注的热点。在对等计算系统(简称P2P系统)中,每个节点都拥有对等的功能与责任,即每个节点既可以充当服务器向其他节点提供数据或服务,又可以作为客户机享用其他节点提供的数据或服务;节点之间的交互可以是直接对等的;任何节点可以随时自由地加入或离开该系统,形成一个真正动态的网络环境。
本文主要探讨结构化对等计算应用层网络拓扑结构及其上的数据挖掘方法,其目的是探索如何高效地利用结构化对等计算系统提供的强大的计算资源以及高效的路由算法完成对等计算环境下的数据挖掘任务。对该问题的解决牵涉到分布式环境下索引的构造、利用与维护;数据和统计信息在对等计算系统中的路由(routing);数据挖掘中的任务分配以及结果收集;系统中节点动态加入退出时的容错性能等诸多挑战。为了应对这些挑战,我们深入研究了这类系统的关键技术所面临的挑战,并取得了以下成果:1.基于Chord[Chord]和CAN[CAN]提出了自己的结构化对等计算系统C2,整合了两个系统的优点;理论证明了C2的网络构架以及路由方法的有效性和高效性,实验验证了C2具有良好的可扩展特性、负载均衡特性和容错特性。2.提出了结构化对等计算环境下的频繁模式挖掘系统PeerFPM;实验验证了PeerFPM系统具有很小的网络通信代价和很短的相应时间;同时验证了PeerFPM系统具有良好的可扩展特性、负载平衡特性、容错特性。3.基于二项分布的大数定理,提出了降低本地支持度阈值的方法,避免了数据偏斜造成的问题;并通过理论推导证明了该方法的有效性。该方法不仅适用于对等计算,而且适用于分布式计算和并行计算环境。
总之,本文详细论述了实现基于结构化对等计算的频繁模式挖掘方法。本文的工作是建立在对相关理论和已有技术的详尽分析以及大量的实验测试结果之上的。