论文部分内容阅读
“聚焦爬虫(Focused Crawling)”在万维网上爬行的时候,尽可能地下载与某(些)主题相关的网页,同时尽可能避免无关网页的下载。聚焦爬行的一个基本技术难点在于爬虫能否在实际下载网页之前即对该网页的主题相关度进行尽可能准确的预测。然而,这种预测所惟一能够依据的各种间接、微妙的相关度线索无处不在但却充满了嗓音,通过传统的机器学习方法利用这些信息将异常困难。这些信息往往由网页上该链接出现的的“上下文环境”提供,也叫“链接上下文信息”。本论文提出一种基于“自然语言处理技术”中的“解析”技术的从网页中自动提取精确的“链接上下文信息”的方法,该方法在webKB数据集上取得了较好的初步实验结果。虽然通过精确提取“链接上下文信息”能够有助于提高对链接指向网页的主题分类精度,但很多情况下这些链接上下文信息或者充满嗓音,或者仍然过于稀少,依赖于这些不完备的信息进行准确的分类还是非常困难的。为此,本论文提出一种新颖的基于“关系子群发现”技术的聚焦爬行算法,它主要的贡献是两方面的:第一,它采用具有更强知识表示能力的一阶谓词逻辑来表示链接的背景知识,从而避免了精确提取“链接上下文信息”本身带来的技术挑战;第二,使用“子群发现(Subgroup Discovery)”的技术从以一阶逻辑表示的背景知识“归纳”出“聚焦爬行规则”。我们通过利用DMOZ人工网页分类数据集进行了多个类别实验,实验结果表明这种基于“关系子群发现”的“聚焦爬行”思路是切实可行的。一旦累积到足够多的在线训练数据集,我们的算法就能够发现大量的具有高“支持度”和“置信度”的用一阶逻辑表示的“聚焦爬行规则”。这些规则将指导以后的“聚焦爬行”过程,期间下载的不相关网页数量明显大幅度减少,同时能够维持“聚焦爬行”过程的正常运行。我们同时与现有的几种相关算法进行了详尽的比较,实验结果表明我们的算法在“收获比”方面明显优于其他方法。