论文部分内容阅读
互联网的快速发展,随之带来的网络安全问题也越发严重。网络钓鱼作为窃取用户个人信息的诈骗技术之一,十分严峻。目前,提高网络用户的安全用网意识和增强安全用网技术,成为网络安全领域研究的重点之一。当下,基于URLs特征的钓鱼检测技术主要有机器学习方法和深度学习方法。因为传统的机器学习方法比较依赖于特征的挖掘,但比较耗时且依赖于领域知识。所以,有学者用深度学习模型研究钓鱼检测问题。因为深度学习方法避免了基于URLs构建传统特征的工作,利用模型优势自动挖掘潜在特征,且在识别钓鱼网站方面有很大的提升。本文的研究,考虑了深度学习方法提取特征的优势,和传统机器学习模型的检测能力,提出基于深度学习挖掘特征的机器学习检测模型。简单描述,利用深度学习模型的复杂性,从URLs字符串中提取更多的特征;但避开深度学习最后一层比较简单的分类检测模式,而是选择用传统机器学习模型中的非线性分类方法或集成模型进行钓鱼网站的分类检测。这样,既利用了深度学习方法的挖掘特征能力,又能结合机器学习模型的分类能力。然后根据此方法,本文主要包含三方面的实验内容:一,从URLs字符串的角度出发,考虑选择的深度学习方法。因此,本文选择了LSTM、BiGRU和BiGRU-Attention模型,进行介绍它们在表示URLs字符串的差异和效果。二,用前面模型中最好的BiGRU-Attention提取URLs字符串的特征,然后与基于URLs的传统特征及两者的组合特征训练传统机器学习方法SVM、Random Forest和XGBoost模型,比较不同特征带来的差异。三,用不同时间段和来源的网址数据集,分析数据集差异带来的钓鱼检测效果差异。最后,得到了基于BiGRU-Attention模型提取特征,用XGBoost作为分类的一种融合检测模型。并在多个数据集的验证下,在几种模型的对比中效果最好。