对等网络下关键字搜索的模型与算法研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:ooniono
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
今天,基于对等网络(P2P,Peer-to-Peer)的文件共享应用占据了互联网骨干网络70%的流量,已经成为互联网中最为重要的一类应用。对等网络下基于关键字的资源搜索是该类应用中的核心技术。由于对等网络中的节点都是运行在互联网络边缘的普通PC机,它们数量庞大,但每个个体的存储和计算能力较弱,而且动态性强、性能不稳定,因此在对等网下的搜索算法除了要求能够支持高效的搜索,同时还要求具备较低的维护代价和较高的容错性能。已有的对等网络下的关键字搜索算法中,基于非结构网络的关键字搜索算法由于拓扑组织的松散和不规则性,搜索性能低下;而基于结构化网络的一类关键字搜索算法,虽然能够保障高效率的搜索,但是需要在网络中发布和维护数量庞大的索引信息,导致较大的维护代价,并且搜索性能受节点动态变化的影响很大。本文提出了一种基于关键字距离的概率覆盖网络模型—KNet,该模型既能够支持高效关键字搜索,同时又具有低维护代价和高容错性的特点,并且该模型的泛化模型还可以被推广应用到对等网络下其他数据类型的搜索应用,其中包括基于内容的P2P图像搜索,基于哈希码的P2P文件搜索等。本文主要的工作和创新性贡献如下:   首先,本文提出了一种基于关键字距离的概率覆盖网络模型KNet,用于解决对等网络下的关键字搜索问题。KNet是一种介于结构和非结构网络之间的柔性概率覆盖网络。该方法不仅具备理论上可证明的O(logN)的搜索性能(给定任意关键字,从任意节点出发总能在O(logN)跳内搜索到包含该关键字的共享文档,N是节点总数),而且维护代价和其他具备类似O(logN)搜索性能的搜索算法相比,不到后者的1%。同时KNet面对节点的频繁上下线具有很好的容错的性能,当网络中有20%随机节点失效的时候,在没有进行任何网络修复操作的前提下,搜索的成功率几乎没有改变。KNet可以广泛应用于P2P关键字搜索中,其中包括基于文件名的搜索以及基于文本内容的搜索。   紧接着,笔者提出了KNet的泛化模型-基于属性距离的概率覆盖网络ANet,以支持对等网络下除关键字搜索外更多数据类型的搜索应用。本文通过引入属性空间和属性距离的概念,对P2P搜索这一类问题进行统一的建模,并且将一大类P2P搜索问题归结为在幂次扩张属性空间中的属性搜索问题。这一类问题都可以通过ANet得到很好解决。ANet具备类似KNet的O(logN)高效搜索性能,低维护代价和高容错性的特点。此外ANet还可以支持精确搜索和区间范围搜索两种搜索形式。在理论分析的基础上,笔者还分析了ANet在实际应用中的部署和使用,这些应用包括:基于内容的P2P图像搜索以及基于文件哈希码的P2P文件搜索。   最后,还从模型层面上探讨了ANet模型和其他具备O(logN)搜索能力的分布式网络模型的关系。笔者对结构化P2P网络模型、Kleinberg小世界模型以及ANet模型等一系列具备O(logN)搜索能力的分布式网络模型进行了系统的对比分析。研究结果表明,大多数结构化网络以及Kleinberg小世界模型都可以转化为ANet模型的一个特例模型。在模型层面上,ANet模型可以认为是目前存在的一大类具备O(logN)搜索能力的分布式搜索模型的泛化模型,ANet可以对它们的搜索机理作统一的解释。
其他文献
随着对撞机性能的改进和取数效率的提高,高能物理实验产生的数据量逐年增长,通常一个大型的高能物理实验几年中可获取的数据达到PB甚至EB量级;物理分析就是从如此庞大的数据量
随着互联网技术的发展,新闻视频数据量急剧增长,但是这些网络新闻视频信息凌乱无序,有价值的信息湮没在大量冗余信息中,对其发现和管理变得越来越困难。   为更好地管理和利用
随着微电子技术的不断发展,单芯片内集成计算机系统已经成为可能,片上系统在最近十多年里得到了飞速发展。在片上系统设计中,芯片的性能、面积、功耗、可测试性、兼容性、可靠性
科学数据在科研活动中起到越来越重要的作用,科学数据的共享与服务越来越得到科研人员的重视。在科学数据共享服务中,数据安全及保护技术扮演着非常重要的角色,有力的数据保护手
禽流感是一种高致病性的禽类传染病,近几年内爆发频率越来越高。为了对疫情的可能性和潜在危险性进行风险评估,及时预测、预防疫情的蔓延,保障人民生命安全、保障畜牧业发展和保
在计算机视觉领域中,如人脸识别、视频检索等,所获得的数据往往具有较高的维数。寻找数据的低维表示即维数约简是计算机视觉研究领域中的一个核心问题。最近几年,受生物模型启发
大数据和云存储在经济生活中广泛应用,系统数据量巨大,为减少冗余数据开销并保证数据可靠性和可用性,采用纠删码取代副本已经成为业界一种趋势。数据一致性是纠删码的本质属性,保
Ad Hoc网络是一种自组织多跳无线网络,其无线信道的共享性以及多链路间的信道干扰是影响该类型网络性能的主要因素。如何有效地降低信道干扰是改善Ad Hoc网络容量的核心问题。
当前网络空间安全的整体格局是易攻难守。传统的防御方法以阻挡和检测为主要手段,具有一定的被动性和滞后性。拟态防御作为一种“改变游戏规则”的主动防御技术将对这种格局产
近年来,随着植物新品种申请量的逐渐增多,审批业务和管理工作也相应繁重起来,纯粹依赖人工受理植物新品种申请的方法已经不能满足当前形势,需要研究并开发一套“林业植物新品