论文部分内容阅读
随着互联网的持续繁荣及各类新兴互联网应用的崛起,互联网络承载的总数据流量一直在持续增长。根据思科VNI2013年的报告,过去五年间互联网流量增长了4倍,预计五年后的流量将是现在的3倍。在流量类型上,根据Sandvine公司最新(2013年下半年)的互联网流量统计报告,P2P文件共享(如BitTorrent)应用在网络流量中的比重约占27%,在过去数年间一直处于网络应用中的前列,而且就上行流量来看一直居于首位。P2P应用产生的大规模流量为ISP的运维管理带来了诸多挑战,其中最显著的一个就是由于覆盖网络对底层拓扑的“无知”而导致域间流量过多,ISP域间带宽越来越吃紧,从而提升了ISP的流量域间结算成本。本文基于对P2P网络资源和流量的测量分析、研究通过缓存技术对P2P流量(主要指跨域流量)进行优化的方法并设计实现了P2P流量缓存原型系统。本文的主要贡献如下。 1.提出了一种P2P网络资源热度测量方法,该方法采用主被动结合的测量方式,对P2P网络资源热度进行测量和分析。本文一方面对全局P2P网络上的资源进行主动测量,分析P2P资源的热度分布,另一方面对某区域网络产生的出口流量进行被动测量,分析P2P流量中资源请求的热度分布,并对获得的热度数据进行建模拟合,发现在这两种场景下测量得到的资源热度均可用Mandelbrot-Zipf分布很好地拟合,从而从资源请求模式的分布上说明了P2P流量内容适合进行缓存优化。P2P资源热度测量工作为后续的缓存研究工作的开展提供了理论基础和可行性保障。 2.结合P2P流量缓存的业务特点,提出了适合对缓存系统负载预过滤的P2P流量分类方法。考虑到缓存系统不需要对非P2P流量进行处理,为减轻缓存系统运行时的流量处理负荷压力,需要快速过滤掉非P2P流量。鉴于P2P应用种类的复杂多样性、以及P2P协议广泛使用动态端口和数据加密等特性,本文设计了利用流量行为特征的、基于机器学习分类器的轻量级P2P流分类识别机制——BTEC方法。BTEC方法不依赖于对载荷内容及端口信息的获取,具有更强的应用性。通过实验评估发现,本文所提的方法能有效区分是非P2P流量,识别准确度高达95%。此外,本文还对BTEC方法在恶意网络环境下的分类健壮性等进行了研究,发现BTEC方法具备较强的针对流量行为伪装的抵抗能力。 3.提出了适合P2P分片传输特征的缓存数据存储机制。本文结合P2P大文件、分片传输的特性,设计适合缓存服务的数据存储与索引机制。它采用三级索引结构,能快速查询和定位缓存的数据片段。实验评估表明,本文的缓存数据存储模块比学术界同类系统中最佳的pCache系统的缓存数据存储在读、写速度上分别快约5倍和36倍。此外,考虑到缓存系统是为区域网内用户提供服务的目的,对常用的缓存替换机制进行了仿真评估,选择最优的替换机制以提高缓存命中率。 4.设计和实现了P2P缓存原型系统并对系统功能和性能进行了评测。本文实现了一个优化的P2P缓存原型系统——P2PCache,对当前最热门的P2P应用BitTorrent协议和eDonkey协议流量进行缓存优化。本文对P2PCache的功能等进行了测试验证,并且对P2PCache在线部署时能为ISP运营商带来的流量节省情况进行了测试,发现它能为ISP带来约10%的带宽节省。 综上,本文对P2P网络中和流量中的资源流行度情况、面向缓存系统负载预过滤的流量分类识别方法、缓存数据存储索引等研究内容上都有深入研究并提出了切实有效的方法,设计实现了P2P流量缓存原型系统P2PCache,为有效减少P2P域间流量,提升网络服务效率而做出了贡献。