具有新跳转策略的Web图PPS抽样方法实验研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:lichuangss33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对Web所提供的仍在不断扩张的信息海洋,抽样是研究人员了解Web整体特征情况最有力的工具。抽样是一种推论统计方法,它是指从目标总体(Population)中抽取一部分个体作为样本(Sample),通过观察样本的属性对总体的属性得出具有一定可靠性的估计判断。抽样的好处有三点:一是开销相对很小,而是数据搜集过程更迅速,三是能够方便地保证数据集的同质性。   在Web网页抽样问题中,我们抽取一定数量的对总体具有代表性的网页。但是本文认为Web抽样问题和一般意义上的抽样问题有很大的区别。首先,一般的随机性原则标准不能完全套用到Web抽样中去其次,Web抽样问题也不能仅仅只强调网页样本的随机性原则。本文认为,对于随机性原则的追求还有改进的余地,并且在Web抽样中除了追求网页的随机性原则,还有应该对Web的站点和域层次有新的目标和要求。具体来说规模较大的站点和更应该出现在样本中。   在本文的工作中,我们设计并开发了一种新的Web抽样方法,称为“网站规模比例概率(ProbabilityProportionaltotheSizeofWebsites,简称PPSW)抽样法”。经过分析,本文认为以往的Web抽样方法都没有注意到Web的层次特性。因此我们希望Web抽样方法的样本不仅在网页层次上能够满足以往的目标,并且在站点和域的层次上也能够具有代表性。为此我们重新设计了一种抽样中随机游走时的跳转策略,这种跳转策略提高了随机游走在Web站点和域层的图上游走的有效性。具体来说,基于随机跳转的Web抽样方法有两个最重要的配置:一是随机游走的过程中是否带有随机跳转的步骤,二是抽样的过程中是否借助搜索引擎链入索引的帮助将Web图转化为无向图。调整这两个配置,配合我们设计的跳转策略,我们尝试了4种Web抽样方法,其中带有随机跳转的有向图Web抽样方法得到了很大的效果提升。   配合我们设计的新抽样方法,我们还对抽样提出了新的目标,并设定对应的评测指标。首先是两个覆盖率的目标,总的来说,我们希望样本能够有尽量高的站点和域的覆盖率。   ·站点覆盖率:抽样尽量多的域(Domain)。相对于Web上网页的数量来说,域的数量就小了好几个数量级。这个数量一般来说是在我们的处理能力范围之内的,所以我们应该尽量满足域的覆盖率目标。   ·域覆盖率:抽样尽量多的站点(Host)。和域的覆盖率目标一样,我们也希望覆盖Web中尽量多的站点。文章Becchettietal.[2006],Bharatetal.[2001]中也提到,Web的样本不宜过深(对少数站点抽样过多网页),而应该覆盖尽量多的站点。   另外相对于覆盖率这个比较粗糙的目标来说,我们还设定了四个比例目标,分别从不同的角度衡量样本是否能够体现站点和域的规模比例。   ·域下站点数比例:Web总体中每个域中被抽样的站点数与每个域中站点数成比例。   ·域下网页数比例:Web总体中每个域中被抽样的网页数与每个域中网页数成比例。   ·站点中网页数比例:Web总体中每个站点中被抽样的网页数与每个站点中网页数成比例。   ·单个域下网页数比例:对于Web总体中每一个域,其中每个站点中被抽样的网页数与该域中站点的网页数成比例。   我们对三种经典的基于随机游走的Web抽样方法和PPSW抽样方法在尽量真是并且相同的环境下进行了15组共计150次对比实验。观察实验过程和实验结果,我们从以下这些方面讨论了众多Web抽样方法的效果:   ·常规的评测指标,如:出度、入度和PageRank值的分布情况,桶标准差等。   ·新的评测指标,在两个覆盖率指标和四个比例评测指标的意义下,我们所设计的PPSW抽样方法的效果是最好的。   ·其他方面,例如,随机游走的步数,抽样方法的稳定性,抽样方法的效率,起始节点库的大小和搜索引擎对抽样的影响。   结果显示,PPSW抽样法无论在常规评测指标下还是在新的评测指标下都具有更好的表现。PPSW抽样法样本的站点和域覆盖率都远大于经典的Web抽样法,在四个比例评测指标上也都优于经典的Web抽样法,是一种高效的Web抽样方法。最后本文还总结了实验中我们所遇到的问题和解决方案。  
其他文献
随着网络的普及和深入应用,Web从一个静态内容提供平台逐渐演化成为一个协同应用的发布和使用环境,使得将软件以服务的形式交付给用户(SaaS)成为可能。多租户SaaS架构作为一种
植物是自然界最常见的景观之一,对植物形态及生长发育进行建模,一方面对于探索植物生长过程的规律,深化对农学、植物学的研究具有重要的意义;另一方面,植物建模技术已在艺术设计、
为软件项目构造合适的过程模型对提升软件质量和生产率具有重要意义,但这也是一个知识密集,耗时费力的工作。为此,北京大学软件工程研究所提出了一种基于模式的软件过程构造方法
随着硬件、网络与通信技术的飞速发展和实际应用需求的持续推动,数据流作为一种新的数据形式在众多领域有着广泛的应用。目前对于数据流管理的研究成果主要集中于近期数据流的
随着互联网信息大爆炸时代的来临,人们可以从互联网上获取的信息也越来越多。搜索引擎的诞生解决了在海量互联网网页中检索特定信息的难题。然而随着时间的推移,旧的网页在消
伴随着信息化时代的到来,各种信息以爆炸式增长,导致图的规模日益增大,传统的图挖掘算法已经不能很好的满足需求。一方面,并行计算可以有效解决这个问题,而包括Hadoop、Hama
XML(eXtensible Markup Language,可扩展置标语言)是由W3C发布的一种标准,它具有文档的内容和结构完全分离,互操作性强,规范统一,扩展性强等优点。XML的常见应用领域包括数据
同时定位与地图创建是指机器人在移动过程中根据传感器数据创建环境地图的同时进行自身位姿的估计。目前,很多同时定位与地图创建的研究都是在假设环境只包含有静态目标的前
随着本体研究的开展与深入,本体被广泛应用到各个领域之中,越来越多的本体被构建用以表示知识与共享知识。由于不同领域问题的不同特征以及网络的分布性,不同领域构建的本体
随着计算机技术的快速发展和因特网的日益普及,各种媒体内容被转化为数字形式,提高了信息表达的效率和准确性,但是数字产品极易被非法复制,盗版已经对数字化产业构成最大的威胁。