基于陷阱的spider检测评价模型研究

来源 :沈阳航空航天大学 | 被引量 : 2次 | 上传用户:haikong123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spider(网络爬虫)是一种网络资源获取程序,它加速网络流通的同时也增加了网络负载,有必要监控spider对网站的访问。目前,spider检测技术主要基于决策树,贝叶斯网络等方法,针对这些检测技术的评价主要依靠人工分析web日志数据,计算其召回率和准确率。为避免人工分析带来的主观性,寻求一种新的有效的评价方法具有重要的意义。本文介绍了spider的特点以及常见spider检测技术,详细分析了现有检测技术评价方法的优缺点。针对传统评价方法中存在的一些问题,提出一种基于陷阱技术的spider检测评价方法,该方法利用陷阱在网站的布置情况和用户的访问过程信息,结合概率论中的二项分布理论,给出了相关参数和指标的计算方法。基于陷阱的评价模型不依赖于人工分析,具有很强的准确性,充分利用了陷阱特性,巧妙的结合用户访问过程信息和二项分布理论,对现有的spider检测技术进行了多角度的评价。同时也分析了不同时间阈值和不同陷阱布置率对评价结果的影响。实验表明该评价方法与人工评价具有一致性,较基于人工分析的评价方法具有很大的优势,具有准确性和客观性,也是一种很简便的自动评价方法。陷阱评价虽然在一定程度上受时间阈值地干扰,但是如果这种变化控制在10%以内,陷阱评价结果将变得可靠与可信。
其他文献
随着Internet的发展,web上的信息正爆炸式增长,由于信息的无序性以及人们不满足于自己去检索必要的信息,等等诸如此类的需求推动了web文本信息抽取的研究。但是目前信息抽取
随着时代的变迁,人们的日常生活已经无法脱离网络,用户的生活变得更加便利,获得知识的途径更加多样化,购物也变得省时省力。然而,网络中随之而来的呈指数增长的信息导致的“
随着异形纤维的出现,纤维混纺织物在国际市场中越来越受到青睐,而混纺织物中各种纤维成分的含量对织物的风格、性能以及价格都影响很大,因此检测纤维成分变得非常重要。传统的人
无线传感器网络部署在开放的环境下,它们通过无线通信方式形成一个多跳的自组织的网络系统。由于受到客观因素的限制,传感器节点的能量十分有限且不能重复使用,所以能量问题
随着Web2.0的迅速发展,标签作为其中一个典型的应用开始被越来越多的人所关注和使用。标签是与某个网络资源相关的一个简短的词或者短语,用户可以通过资源指定若干标签的方式
空间位置影响力评价与查询是空间数据库中典型的研究问题,广泛应用于建筑规划、布局。研究的基本内容包括影响力度量方法、空间数据的索引、影响力查询及基于影响力的优化等
舌侧隐形牙齿矫正器具有安全、美观等特点,虚拟牙齿矫正系统为其广泛应用提供了技术支持。本文主要研究虚拟牙齿矫正系统中牙齿的分割方法及实现。本文简要介绍了牙颌三角网
医学成像技术的飞速发展,使得医学图像逐渐成为临床诊断与治疗中的重要依据。对存在较大形变的医学图像进行弹性配准是当前临床应用中的一个重要研究课题。其中,基于样条变换
近年来,随着图像应用领域的扩展,图像处理技术得到了迅猛的发展,已经成为图像理解和计算机视觉领域中一项重要而有用的技术。图像处理不仅可以使处理后的图像更适合人的视觉观察
矿床开拓是矿山的主要基本建设工程,开拓质量的好坏将直接影响到矿山生产的后续环节。斜坡道是近几年在矿床开拓过程中被广泛使用的一种开拓方式,它是伴随着井下无轨设备的发