基于关系子群发现算法的聚焦爬行技术

来源 :吉林大学 | 被引量 : 0次 | 上传用户：xxx12

【摘要】

：

“聚焦爬虫(Focused Crawling)”在万维网上爬行的时候,尽可能地下载与某(些)主题相关的网页,同时尽可能避免无关网页的下载。聚焦爬行的一个基本技术难点在于爬虫能否在实际

【作者】

：

徐晴阳

【出处】

：

吉林大学

【发表日期】

：

2008年期

【关键词】

：

聚集爬行关系学习子群发现机器学习搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

“聚焦爬虫(Focused Crawling)”在万维网上爬行的时候,尽可能地下载与某(些)主题相关的网页,同时尽可能避免无关网页的下载。聚焦爬行的一个基本技术难点在于爬虫能否在实际下载网页之前即对该网页的主题相关度进行尽可能准确的预测。然而,这种预测所惟一能够依据的各种间接、微妙的相关度线索无处不在但却充满了嗓音,通过传统的机器学习方法利用这些信息将异常困难。这些信息往往由网页上该链接出现的的“上下文环境”提供,也叫“链接上下文信息”。本论文提出一种基于“自然语言处理技术”中的“解析”技术的从网页中自动提取精确的“链接上下文信息”的方法,该方法在webKB数据集上取得了较好的初步实验结果。虽然通过精确提取“链接上下文信息”能够有助于提高对链接指向网页的主题分类精度,但很多情况下这些链接上下文信息或者充满嗓音,或者仍然过于稀少,依赖于这些不完备的信息进行准确的分类还是非常困难的。为此,本论文提出一种新颖的基于“关系子群发现”技术的聚焦爬行算法,它主要的贡献是两方面的:第一,它采用具有更强知识表示能力的一阶谓词逻辑来表示链接的背景知识,从而避免了精确提取“链接上下文信息”本身带来的技术挑战;第二,使用“子群发现(Subgroup Discovery)”的技术从以一阶逻辑表示的背景知识“归纳”出“聚焦爬行规则”。我们通过利用DMOZ人工网页分类数据集进行了多个类别实验,实验结果表明这种基于“关系子群发现”的“聚焦爬行”思路是切实可行的。一旦累积到足够多的在线训练数据集,我们的算法就能够发现大量的具有高“支持度”和“置信度”的用一阶逻辑表示的“聚焦爬行规则”。这些规则将指导以后的“聚焦爬行”过程,期间下载的不相关网页数量明显大幅度减少,同时能够维持“聚焦爬行”过程的正常运行。我们同时与现有的几种相关算法进行了详尽的比较,实验结果表明我们的算法在“收获比”方面明显优于其他方法。

其他文献

医疗CT运动伪像研究

医疗CT中的运动伪像是指在扫描和重建图像过程中由于病人有意的或无意的运动而产生的图像模糊不清或者边界不清楚。为了提高生物医学图像的可读性,使得医疗工作者可以对人体

学位

运动伪像高对比度分辨率低对比度分辨率点扩展函数图像重建滤波反投影理想点HLCC

中美海上互信机制研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

中国美国互信机制海洋

自拟化痰泻火方治疗女童特发性性早熟的疗效和对性激素水平、卵巢容积及BA/CA的影响

期刊

特发性性早熟女童自拟化痰泻火方性激素卵巢容积临床观察