论文部分内容阅读
网络钓鱼(Phishing)是一种在线欺诈行为,它利用钓鱼网页仿冒正常合法的网页,窃取用户敏感信息从而达到非法盈利目的。随着互联网的蓬勃发展,网络钓鱼这种以互联网为载体的犯罪行为不断蔓延并愈演愈烈,对人们的财产安全和互联网产业的发展构成了极大的威胁。网络钓鱼的日益猖獗引起了国内外相关机构的广泛关注,如何快速有效的检测出钓鱼网页,成为当前网络安全领域的研究热点之一。 本文在对国内外钓鱼网页检测技术调研分析的基础上,结合了特征提取和集成学习(Ensemble Learning)的思想,从提高检测效率和检测精度出发,开展了对钓鱼网页检测方法的研究,在网页渲染、特征提取、检测模型构造等方面进行了技术设计和实现。针对PhishTank钓鱼网页的检测实验表明,本文系统有较高的检测准确率和召回率。本文的主要工作包括: (1)调研分析了钓鱼网页的伪装特性。通过对大量钓鱼网页的分析,归纳总结了常用的钓鱼网页伪装手段,并针对每一种伪装手段,提出了相应的去伪装方法。 (2)研究了钓鱼网页的特征提取方法。从网页URL敏感特征、网络拓扑结构特征以及页面文本类特征三个角度出发,提取了22种钓鱼网页特征,建立了用于钓鱼检测的敏感特征向量。 (3)提出了钓鱼网页分类模型的学习算法。利用集成学习的思想,分别采用朴素贝叶斯和支持向量机算法构建了多个基础分类器,并利用不同特征集训练不同的基础分类器。集成各个模型的分类结果,形成最终的集成学习分类器。 (4)设计实现了基于本文方法的钓鱼网页检测系统。系统包含网页抓取、特征提取、特征解析、基础分类器、集成学习分类器和网页检测模块,能够针对指定的URL地址判断是否属于钓鱼网页。在此基础上,利用公开获取的钓鱼网页和正常网页作为测试数据集,对系统的检测能力进行了验证。