基于神经网络和注意力机制的钓鱼网站检测研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:lutaixiaoxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G网络的开始商用,人们已经开始越来越依赖网络了。网络中每天都会产生大量的数据,这些数据包括网络用户的一些个人信息,银行卡号,支付密码等等。用户与网站安全的数据交互变得尤为重要。目前,钓鱼网站因其拥有存活时间短,危害性大的特点已经成为网络安全中的一个重大威胁。网络钓鱼利用诸如电子邮件和SMS之类的社会工程技术,将网络钓鱼URL伪装成合法网站的URL来窃取用户的私人信息。因此建立一个可以快速并且有效的钓鱼网络检测模型已经迫在眉睫。目前的钓鱼网站检测方法主要是基于机器学习和深度学习来做的,这两种方法的不同点就在于特征工程的不同。前者的特征工程在很大程度上依赖于了前人的研究成果,而后者的特征提取不需要太多的人工干预都是神经网络帮我们自动完成。根据多个模型的对比,基于神经网络的方法的准确性要更高。这两种方法都存在一个问题就是这些特征中会存在消极特征,这些特征不但不能提高模型的检测准确性,有可能还会降低模型的检测准确性。基于以上的分析,本文提出了一个基于深度学习算法提取特征并且利用注意力机制进行特征选择的轻量级钓鱼网络检测方法——CCBLA(Char CNN and BiLSTM with Attention Mechanism)。在CCBLA模型中,深度学习方法用于自动从目标URL中提取特征。这些特征在网络钓鱼检测过程中有着不同的重要程度,然后利用注意机制进行特征选择操作去除那些对检测准确率没有提升的特征。使用两个不同规模的数据集来测试所提出的CCBLA模型的性能,实验结果表明,该方法在检测网络钓鱼攻击方面是准确的,而且具有很好的检测效率。本文的主要工作如下:(1)使用卷积神经网络和双向长短期记忆神经网络来自动提取URL的局部特征和上下文语义结构特征。可以有效避免不法分子因知道基于机器学习方法手工提取的特征而故意设计URL。另外这些特征不依赖第三方服务,可以大大提高检测速度。由于该钓鱼网站检测模型不需要太多的计算资源,CCBLA模型也适合在计算资源相对稀缺的移动平台上进行部署。(2)提出了基于TF-IDF算法的注意力分数计算方法。由于深度学习算法提取的特征维度会非常大,并且不是所有的特征都是积极特征这就需要进行特征选择。所以我们结合TF-IDF算法对传统的注意力机制的注意力分数计算方式进行了改进提出了TF-IDF注意力分数。传统的注意力分数计算过程中需要随机初始化一个参数,并在神经网络的不断迭代中进行修正。而我们的方法先计算出注意力分数不参加训练,使神经网络的训练参数减少了。通过改进注意力机制进行特征选择不仅丢弃了一些消极特征,而且模型的复杂度也降低了,模型检测的速度和准确性得到了很大的提升。
其他文献
如何在不耗费过多资源的前提下拥有较高的作业效率一直是学术界研究的重点和难点,传统优化策略对该问题的寻优效果往往并不理想,而群智能优化算法的出现使学者们的寻优思路不再过于局限。该类算法可以通过不断的迭代和搜索以获取最终结果,在求解过程中不仅可表现出极高的智能性还能够极大减小人力资源成本。蝙蝠算法(Bat Algorithm,BA)主要是对自然界中蝙蝠超声波的回声特征进行模仿,作为一种具有代表性的群智
小麦籽粒在感染赤霉病(Fusarium head blight,FHB)的过程中所累积毒素会对人和动物的健康造成巨大的危害,同时也会影响小麦的产量。传统的赤霉病识别主要依靠专家的经验以及一些设备仪器,该方法存在耗时耗力和低效等缺点。因此,开发出一种高效的小麦籽粒赤霉病识别方法至关重要,对于我国智慧农业的发展具有重要意义。现有研究表明,光谱学技术具有快速无损的特点,可以应用于农作物病害的检测。目前,
近年来,民用汽车保有量的持续增长,导致交通供需不平衡问题日益严重。交通流数据能够直观反映出实时的交通状况,若能提前了解可靠的交通信息,将有助于交通管理者制定和实施交通规划策略,有效地降低公共安全风险。同时,还可以帮助旅行者更好地规划出行路线,减少时间成本和经济损失。因此对道路的管理者和使用者都具有十分重要的意义。然而,由于道路之间的时空相关性复杂多变,交通流数据的非线性和随机性特征,交通流预测变得
现实世界中的复杂系统与人们的生活密切相关,这些复杂系统都可以表示为复杂网络,其中社团结构作为复杂网络的重要特性之一,对于分析复杂网络的结构属性和潜在功能具有重要作用。复杂网络中的社团结构主要分为两类:一类是非重叠社团,即网络中节点只能属于一个社团;另一类是重叠社团,即网络中节点可以属于多个社团。由于现实世界中大部分复杂网络都具有重叠社团结构,所以本文关注重叠社团检测问题。为了解决这个问题,基于多目
随着大数据以及云服务时代的来临,互联网上Web服务呈指数增长,具有类似功能的Web服务也急剧增多。如何在功能相同的海量服务中为用户推荐满足其需求的服务成为服务推荐领域的研究热点。服务的QoS作为衡量服务非功能属性的指标一直广泛应用于服务推荐领域中。然而,在当前网络环境下,由于种种条件限制,用户不可能亲自调用每一个服务来获取QoS值,因此,QoS预测成为为用户在短时间内推荐服务的有效途径。传统的协同
随着城市中汽车数量与日俱增,交通流量日益扩大,给我国智能交通系统带来一定挑战,因此车牌定位与识别技术的研究不能停滞不前,尤其是车牌定位技术更是整个研究领域中最为关键的一环,同时随着汽车周围环境的变化和不确定因素的干扰,传统固定场景下的车牌定位方法逐渐难以满足越来越复杂的实际场景需求。本文基于经典的特征设计工程以及深度学习在目标检测领域获得巨大成功的前提下,针对复杂场景下的车牌定位难的问题提供了两种
近年来,随着科学技术的进步,出现了许多包含大量特征的问题。大量的冗余特征会显著降低模型的学习精度和速度。为了消除冗余特征,特征选择在各个领域被广泛应用。现有的特征选择算法主要分为两类,第一类为过滤式方法,该方法根据数据的特性定义一些评价指标,通常速度较快。第二类是包装式方法,包装式方法通常是一种迭代型算法,能够得到较高的分类精度。为了能够同时提高算法的分类精度和缩短算法的时间,一种基于混合(结合过
随着人工智能技术的快速发展,智能化的人-机交互设备已逐渐走进人们的生活。虽然它们能够较好地按照人们的意愿完成相应的功能,但几乎不能进行情感交流,无法根据使用者的心理感受调整交互方式,这极大制约了其功能和应用范围。情感作为一种主要的信息交流方式,在人们的日常沟通中发挥着重要的作用。开发具有情感自主感知的人机交互系统,已成为人工智能与人机交互领域中一个重要的研究方向。目前,情感计算的主要数据来源大致可
随着信息技术的发展,各领域的数据规模以惊人的速度扩张,这一方面给机器学习、数据挖掘等任务带来了更多的训练信息,另一方面增加了处理这些数据的难度。实例选择(Instance Selection,简称IS),作为一种常见的数据预处理技术,可以有效地删除一些冗余、噪声的样本,从训练集中获得一个优秀的子集,被广泛应用于机器学习、数据挖掘等任务中。因为实例选择的重要性,过去几十年里,有许多不同的实例选择算法
随着信息化和大数据时代的进一步到来,日益扩大膨胀的信息和数据已经充斥着人们生活的方方面面。为了高效和准确地获取信息,推荐系统成为了人们日常生活中不可或缺的工具。当前,大多学者对推荐系统的研究主要是针对单一领域推荐性能的提高。这种推荐系统大都存在着数据稀疏性的问题,很难精确地建模用户的兴趣。事实上,用户的信息通常是跨平台或者跨领域的,因此不同领域的信息可以相互共享和互为补充。但是针对一个特定的推荐任