论文部分内容阅读
针对识别分页标签的必要性,提出二种DeepWeb结果页面中分页标签识别模型GL(Global Baseon Link)和CSL(Commix Baseon StructureandLink).GL是将一个页面的所有超链接Link(都抽取出来,然后根据链接探测得到响应页面,分析响应页面的特征来判断是不是分页标签;CSL则是根据分页页面的布局特点,首先缩小分页标签的范围,然后在这个小范围内抽取超链接,最后通过探测方法来确定分页标签的位置,从而抽取出分页标签.通过实验对比,CSL在查全率上略低于GL模型,但是查