论文部分内容阅读
面对Web所提供的仍在不断扩张的信息海洋,抽样是研究人员了解Web整体特征情况最有力的工具。抽样是一种推论统计方法,它是指从目标总体(Population)中抽取一部分个体作为样本(Sample),通过观察样本的属性对总体的属性得出具有一定可靠性的估计判断。抽样的好处有三点:一是开销相对很小,而是数据搜集过程更迅速,三是能够方便地保证数据集的同质性。
在Web网页抽样问题中,我们抽取一定数量的对总体具有代表性的网页。但是本文认为Web抽样问题和一般意义上的抽样问题有很大的区别。首先,一般的随机性原则标准不能完全套用到Web抽样中去其次,Web抽样问题也不能仅仅只强调网页样本的随机性原则。本文认为,对于随机性原则的追求还有改进的余地,并且在Web抽样中除了追求网页的随机性原则,还有应该对Web的站点和域层次有新的目标和要求。具体来说规模较大的站点和更应该出现在样本中。
在本文的工作中,我们设计并开发了一种新的Web抽样方法,称为“网站规模比例概率(ProbabilityProportionaltotheSizeofWebsites,简称PPSW)抽样法”。经过分析,本文认为以往的Web抽样方法都没有注意到Web的层次特性。因此我们希望Web抽样方法的样本不仅在网页层次上能够满足以往的目标,并且在站点和域的层次上也能够具有代表性。为此我们重新设计了一种抽样中随机游走时的跳转策略,这种跳转策略提高了随机游走在Web站点和域层的图上游走的有效性。具体来说,基于随机跳转的Web抽样方法有两个最重要的配置:一是随机游走的过程中是否带有随机跳转的步骤,二是抽样的过程中是否借助搜索引擎链入索引的帮助将Web图转化为无向图。调整这两个配置,配合我们设计的跳转策略,我们尝试了4种Web抽样方法,其中带有随机跳转的有向图Web抽样方法得到了很大的效果提升。
配合我们设计的新抽样方法,我们还对抽样提出了新的目标,并设定对应的评测指标。首先是两个覆盖率的目标,总的来说,我们希望样本能够有尽量高的站点和域的覆盖率。
·站点覆盖率:抽样尽量多的域(Domain)。相对于Web上网页的数量来说,域的数量就小了好几个数量级。这个数量一般来说是在我们的处理能力范围之内的,所以我们应该尽量满足域的覆盖率目标。
·域覆盖率:抽样尽量多的站点(Host)。和域的覆盖率目标一样,我们也希望覆盖Web中尽量多的站点。文章Becchettietal.[2006],Bharatetal.[2001]中也提到,Web的样本不宜过深(对少数站点抽样过多网页),而应该覆盖尽量多的站点。
另外相对于覆盖率这个比较粗糙的目标来说,我们还设定了四个比例目标,分别从不同的角度衡量样本是否能够体现站点和域的规模比例。
·域下站点数比例:Web总体中每个域中被抽样的站点数与每个域中站点数成比例。
·域下网页数比例:Web总体中每个域中被抽样的网页数与每个域中网页数成比例。
·站点中网页数比例:Web总体中每个站点中被抽样的网页数与每个站点中网页数成比例。
·单个域下网页数比例:对于Web总体中每一个域,其中每个站点中被抽样的网页数与该域中站点的网页数成比例。
我们对三种经典的基于随机游走的Web抽样方法和PPSW抽样方法在尽量真是并且相同的环境下进行了15组共计150次对比实验。观察实验过程和实验结果,我们从以下这些方面讨论了众多Web抽样方法的效果:
·常规的评测指标,如:出度、入度和PageRank值的分布情况,桶标准差等。
·新的评测指标,在两个覆盖率指标和四个比例评测指标的意义下,我们所设计的PPSW抽样方法的效果是最好的。
·其他方面,例如,随机游走的步数,抽样方法的稳定性,抽样方法的效率,起始节点库的大小和搜索引擎对抽样的影响。
结果显示,PPSW抽样法无论在常规评测指标下还是在新的评测指标下都具有更好的表现。PPSW抽样法样本的站点和域覆盖率都远大于经典的Web抽样法,在四个比例评测指标上也都优于经典的Web抽样法,是一种高效的Web抽样方法。最后本文还总结了实验中我们所遇到的问题和解决方案。