论文部分内容阅读
今天,基于对等网络(P2P,Peer-to-Peer)的文件共享应用占据了互联网骨干网络70%的流量,已经成为互联网中最为重要的一类应用。对等网络下基于关键字的资源搜索是该类应用中的核心技术。由于对等网络中的节点都是运行在互联网络边缘的普通PC机,它们数量庞大,但每个个体的存储和计算能力较弱,而且动态性强、性能不稳定,因此在对等网下的搜索算法除了要求能够支持高效的搜索,同时还要求具备较低的维护代价和较高的容错性能。已有的对等网络下的关键字搜索算法中,基于非结构网络的关键字搜索算法由于拓扑组织的松散和不规则性,搜索性能低下;而基于结构化网络的一类关键字搜索算法,虽然能够保障高效率的搜索,但是需要在网络中发布和维护数量庞大的索引信息,导致较大的维护代价,并且搜索性能受节点动态变化的影响很大。本文提出了一种基于关键字距离的概率覆盖网络模型—KNet,该模型既能够支持高效关键字搜索,同时又具有低维护代价和高容错性的特点,并且该模型的泛化模型还可以被推广应用到对等网络下其他数据类型的搜索应用,其中包括基于内容的P2P图像搜索,基于哈希码的P2P文件搜索等。本文主要的工作和创新性贡献如下:
首先,本文提出了一种基于关键字距离的概率覆盖网络模型KNet,用于解决对等网络下的关键字搜索问题。KNet是一种介于结构和非结构网络之间的柔性概率覆盖网络。该方法不仅具备理论上可证明的O(logN)的搜索性能(给定任意关键字,从任意节点出发总能在O(logN)跳内搜索到包含该关键字的共享文档,N是节点总数),而且维护代价和其他具备类似O(logN)搜索性能的搜索算法相比,不到后者的1%。同时KNet面对节点的频繁上下线具有很好的容错的性能,当网络中有20%随机节点失效的时候,在没有进行任何网络修复操作的前提下,搜索的成功率几乎没有改变。KNet可以广泛应用于P2P关键字搜索中,其中包括基于文件名的搜索以及基于文本内容的搜索。
紧接着,笔者提出了KNet的泛化模型-基于属性距离的概率覆盖网络ANet,以支持对等网络下除关键字搜索外更多数据类型的搜索应用。本文通过引入属性空间和属性距离的概念,对P2P搜索这一类问题进行统一的建模,并且将一大类P2P搜索问题归结为在幂次扩张属性空间中的属性搜索问题。这一类问题都可以通过ANet得到很好解决。ANet具备类似KNet的O(logN)高效搜索性能,低维护代价和高容错性的特点。此外ANet还可以支持精确搜索和区间范围搜索两种搜索形式。在理论分析的基础上,笔者还分析了ANet在实际应用中的部署和使用,这些应用包括:基于内容的P2P图像搜索以及基于文件哈希码的P2P文件搜索。
最后,还从模型层面上探讨了ANet模型和其他具备O(logN)搜索能力的分布式网络模型的关系。笔者对结构化P2P网络模型、Kleinberg小世界模型以及ANet模型等一系列具备O(logN)搜索能力的分布式网络模型进行了系统的对比分析。研究结果表明,大多数结构化网络以及Kleinberg小世界模型都可以转化为ANet模型的一个特例模型。在模型层面上,ANet模型可以认为是目前存在的一大类具备O(logN)搜索能力的分布式搜索模型的泛化模型,ANet可以对它们的搜索机理作统一的解释。