基于机器学习的搜索引擎反作弊系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:yyll2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎在人们生活中起着越来越重要的作用,已经成为网民获取信息的主要来源和企业营销的重要手段。在利益的驱使下,越来越多的网站为了获得在搜索引擎中的展现机会,提高在搜索引擎中的排名,采取了不正确的作弊策略,欺骗搜索引擎,影响到正常用户快速获取有效信息。如何检测这类作弊页面,并对其进行打击,已经成为搜索引擎系统的重要组成部分。 本文首先分析了当前互联网搜索引擎上存在的作弊类型以及每种作弊类型能够提升在搜索引擎中排名的原因,接着介绍了当前搜索引擎反作弊现状及存在的程序可维护性低、可扩展性不高、策略收益小的问题。针对这些问题,本文提出将反作弊问题转化成文本二分类问题,利用机器学习的方法来取代人工“打补丁”的方法。 其次,分析了反作弊问题的非对称性,在机器学习算法中引入级联、回溯和非对称加权的思想,对Boosting机器算法进行改进,提出FloatCascade机器学习算法,并将其运用在反作弊系统中。 再次,分析了作弊问题的多样性,摒弃了文本分类中常用的基于词的特征构造方法,采用多样化的网页特征提取方法,并利用决策树组织现有特征,提高特征的质量,扩大特征数量,以满足Boosting算法对特征多样性的要求。 最后,讨论了基于FloatCascade机器学习算法的反作弊系统的设计与实现,并将本系统的结果和线上系统的结果进行了对比分析,评估了系统的性能。同时,在本系统基础上,将FloatCascade算法的结果和AdaBoost、SVM、NaiveBayes等机器学习算法的结果进行对比,评估了算法的性能。 归纳起来,本文的主要内容是设计并实现了基于FloatCascade机器学习算法的搜索引擎反作弊系统;针对反作弊问题的非对称,将级联、回溯和非对称加权的思想运用到机器学习算法中,提出了FloatCascde机器学习算法;采用多样化的特征提取方法和决策树来组织特征,解决反作弊类型多样化的问题。
其他文献
P2P存储系统具有可扩展性好,容错性高等优势,是近年来学术界的研究热点。但是由于P2P存储系统的复杂性高,搭建起来比较困难,使得系统并没有随着研究发展而流行起来。尤其是在广域
三维人体建模在服装定制、虚拟现实、电子游戏、影视特效等领域中具有重要的应用价值。在基于立体视觉的三维人体模型重建过程中,由于相机视角与遮挡等原因,获取到的点云数据往
指代是自然语言中常见的语言现象,大量出现在日常对话和书面记录中。由于互联网技术的不断发展,Web上出现了数以万记的网页,这些网页的内容大多是以自然语言的形式描述的,其中包
随着集成电路制造工艺的进步和半导体技术的发展,传统的二维芯片的设计越来越复杂,通信成本不断提高。三维集成技术缩短了物理连线的长度,降低了系统的通信时延和功耗,成为芯片架
随着互联网的飞速发展以及网络应用服务越来越呈现出的多样化和多元化等特点,网络协议、网络基础设施以及网络服务存在的相关缺陷和问题为黑客所利用,网络攻击正趋日益增长之势
由于Web应用系统具有层次分明,可移植性好,管理灵活的特点,Web应用软件己成为当前软件系统开发的主流,同时,Web应用软件由产品向服务的转型是Web应用软件发展的必然趋势,针对用户对
随着软件开发的全球化发展,地理上分散的开发人员之间的协同工作在软件开发中所占的地位越来越重要,协同软件工程也因此成为软件开发领域的热门研究方向。软件工程领域的协同的
无线Mesh网络(Wireless Mesh Networks,WMN)作为一种无线多跳的组网方式有着广阔的应用前景。WMN具有高带宽、覆盖范围广以及部署成本低等特点,用户可以不依赖于现有的网络基础
随着Web的快速发展和Web信息的爆炸式增长,越来越多的Web用户使用搜索引擎来寻找想要的信息,搜索引擎也就扮演着越来越重要的角色。为了能将更好的搜索结果提供给用户,大部分搜
高性能计算是当前科学研究的重要手段之一。受到功耗的限制,计算机已经不能通过单纯的提高频率来获得性能的提升。多核成为计算机发展的重要方向,随之而来的复杂体系结构和编程