论文部分内容阅读
搜索引擎在人们生活中起着越来越重要的作用,已经成为网民获取信息的主要来源和企业营销的重要手段。在利益的驱使下,越来越多的网站为了获得在搜索引擎中的展现机会,提高在搜索引擎中的排名,采取了不正确的作弊策略,欺骗搜索引擎,影响到正常用户快速获取有效信息。如何检测这类作弊页面,并对其进行打击,已经成为搜索引擎系统的重要组成部分。
本文首先分析了当前互联网搜索引擎上存在的作弊类型以及每种作弊类型能够提升在搜索引擎中排名的原因,接着介绍了当前搜索引擎反作弊现状及存在的程序可维护性低、可扩展性不高、策略收益小的问题。针对这些问题,本文提出将反作弊问题转化成文本二分类问题,利用机器学习的方法来取代人工“打补丁”的方法。
其次,分析了反作弊问题的非对称性,在机器学习算法中引入级联、回溯和非对称加权的思想,对Boosting机器算法进行改进,提出FloatCascade机器学习算法,并将其运用在反作弊系统中。
再次,分析了作弊问题的多样性,摒弃了文本分类中常用的基于词的特征构造方法,采用多样化的网页特征提取方法,并利用决策树组织现有特征,提高特征的质量,扩大特征数量,以满足Boosting算法对特征多样性的要求。
最后,讨论了基于FloatCascade机器学习算法的反作弊系统的设计与实现,并将本系统的结果和线上系统的结果进行了对比分析,评估了系统的性能。同时,在本系统基础上,将FloatCascade算法的结果和AdaBoost、SVM、NaiveBayes等机器学习算法的结果进行对比,评估了算法的性能。
归纳起来,本文的主要内容是设计并实现了基于FloatCascade机器学习算法的搜索引擎反作弊系统;针对反作弊问题的非对称,将级联、回溯和非对称加权的思想运用到机器学习算法中,提出了FloatCascde机器学习算法;采用多样化的特征提取方法和决策树来组织特征,解决反作弊类型多样化的问题。