基于集成学习的钓鱼网页检测系统

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:netcapo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络钓鱼(Phishing)是一种在线欺诈行为,它利用钓鱼网页仿冒正常合法的网页,窃取用户敏感信息从而达到非法盈利目的。随着互联网的蓬勃发展,网络钓鱼这种以互联网为载体的犯罪行为不断蔓延并愈演愈烈,对人们的财产安全和互联网产业的发展构成了极大的威胁。网络钓鱼的日益猖獗引起了国内外相关机构的广泛关注,如何快速有效的检测出钓鱼网页,成为当前网络安全领域的研究热点之一。  本文在对国内外钓鱼网页检测技术调研分析的基础上,结合了特征提取和集成学习(Ensemble Learning)的思想,从提高检测效率和检测精度出发,开展了对钓鱼网页检测方法的研究,在网页渲染、特征提取、检测模型构造等方面进行了技术设计和实现。针对PhishTank钓鱼网页的检测实验表明,本文系统有较高的检测准确率和召回率。本文的主要工作包括:  (1)调研分析了钓鱼网页的伪装特性。通过对大量钓鱼网页的分析,归纳总结了常用的钓鱼网页伪装手段,并针对每一种伪装手段,提出了相应的去伪装方法。  (2)研究了钓鱼网页的特征提取方法。从网页URL敏感特征、网络拓扑结构特征以及页面文本类特征三个角度出发,提取了22种钓鱼网页特征,建立了用于钓鱼检测的敏感特征向量。  (3)提出了钓鱼网页分类模型的学习算法。利用集成学习的思想,分别采用朴素贝叶斯和支持向量机算法构建了多个基础分类器,并利用不同特征集训练不同的基础分类器。集成各个模型的分类结果,形成最终的集成学习分类器。  (4)设计实现了基于本文方法的钓鱼网页检测系统。系统包含网页抓取、特征提取、特征解析、基础分类器、集成学习分类器和网页检测模块,能够针对指定的URL地址判断是否属于钓鱼网页。在此基础上,利用公开获取的钓鱼网页和正常网页作为测试数据集,对系统的检测能力进行了验证。
其他文献
几何建模是计算机图形学和计算机辅助设计中的一个基本问题。本文中,我们以产品设计为主要应用,对几何建模中几何体形状和位置的优化问题进行了研究。同面向图形学应用的几何
学位
相似词是自然语言处理领域重要的知识资源,在查询扩展、机器翻译、自动摘要、问答系统中都有广泛的应用。本文对汉语相似词的自动获取进行了系统的研究,主要使用基于大规模语
随着多核技术、云计算技术的发展,我们常常会面临一台多核机上运行若干组不同的计算任务的情景。在这样的情景下,内存、高速缓存、总线等存储相关的竞争会对计算性能产生较大影
随着信息时代的到来,在各式各样的现实应用中,由于度量误差、数据不完整性等原因,产生了大量的不确定数据,不确定数据扮演着十分重要的角色。同时,数据仓库与OLAP(On-Line An
近年来,随着计算机硬件和软件的快速发展,使得软件工程面临着严峻的挑战:软件系统变得越来越复杂,大大增加了开发和维护的难度。如何更快地开发出满足需求的应用系统已经成为软件
为了解决PC机自身结构缺陷,改变传统安全技术(如防火墙、杀毒软件和入侵检测系统等)在应对如今与日俱增的信息安全问题情形下的被动局面,从芯片、硬件结构和操作系统等方面综合
随着计算机网络的快速发展,各个领域的信息呈现指数级增长的趋势。领域性分析是知识构建、语义理解、文本分类、数据发掘等研究的基础,具有非常重要的意义。本文从词的层次上
MapReduce是应用于大规模数据处理的并行计算框架。从2004年Google提出该框架开始,MapReduce逐渐被越来越多的互联网公司和研究机构应用于日志分析、数据挖掘等领域。MapRedu
用于生态环境观测的无线传感器网络已经在许多不同类型的生态系统中得到广泛应用。这些系统普遍采用Sensor Web体系构建,以消除由于生态系统之间以及内部传感器接口和协议的异