基于关系子群发现算法的聚焦爬行技术

来源 :吉林大学 | 被引量 : 0次 | 上传用户:xxx12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“聚焦爬虫(Focused Crawling)”在万维网上爬行的时候,尽可能地下载与某(些)主题相关的网页,同时尽可能避免无关网页的下载。聚焦爬行的一个基本技术难点在于爬虫能否在实际下载网页之前即对该网页的主题相关度进行尽可能准确的预测。然而,这种预测所惟一能够依据的各种间接、微妙的相关度线索无处不在但却充满了嗓音,通过传统的机器学习方法利用这些信息将异常困难。这些信息往往由网页上该链接出现的的“上下文环境”提供,也叫“链接上下文信息”。本论文提出一种基于“自然语言处理技术”中的“解析”技术的从网页中自动提取精确的“链接上下文信息”的方法,该方法在webKB数据集上取得了较好的初步实验结果。虽然通过精确提取“链接上下文信息”能够有助于提高对链接指向网页的主题分类精度,但很多情况下这些链接上下文信息或者充满嗓音,或者仍然过于稀少,依赖于这些不完备的信息进行准确的分类还是非常困难的。为此,本论文提出一种新颖的基于“关系子群发现”技术的聚焦爬行算法,它主要的贡献是两方面的:第一,它采用具有更强知识表示能力的一阶谓词逻辑来表示链接的背景知识,从而避免了精确提取“链接上下文信息”本身带来的技术挑战;第二,使用“子群发现(Subgroup Discovery)”的技术从以一阶逻辑表示的背景知识“归纳”出“聚焦爬行规则”。我们通过利用DMOZ人工网页分类数据集进行了多个类别实验,实验结果表明这种基于“关系子群发现”的“聚焦爬行”思路是切实可行的。一旦累积到足够多的在线训练数据集,我们的算法就能够发现大量的具有高“支持度”和“置信度”的用一阶逻辑表示的“聚焦爬行规则”。这些规则将指导以后的“聚焦爬行”过程,期间下载的不相关网页数量明显大幅度减少,同时能够维持“聚焦爬行”过程的正常运行。我们同时与现有的几种相关算法进行了详尽的比较,实验结果表明我们的算法在“收获比”方面明显优于其他方法。
其他文献
医疗CT中的运动伪像是指在扫描和重建图像过程中由于病人有意的或无意的运动而产生的图像模糊不清或者边界不清楚。为了提高生物医学图像的可读性,使得医疗工作者可以对人体
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:探讨针刀松解结合按摩手法及中药治疗慢性顽固性胃炎的临床疗效。方法:对患者的胸椎及其相关区域的病变组织、压痛点进行针刀松解后,并予以手法整复错位的胸椎关节并内服中
<正>小区门口,车牌识别、人脸识别系统成功,"欢迎您回家!"道闸打开,便利业主回家路;小区天眼监控,24小时追踪小区内、小区周边人、事,确保小区安全;社区物业APP,线上缴费、报
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目前,信息共享空间已经成为图书馆发展的新趋势。信息共享空间是国外高校图书馆为适应用户的变化和研究的需要而建立起来的一种基础设施和新的服务模式,本文对我国高校图书馆信