论文部分内容阅读
随着互联网的迅速发展,来自网络安全方面的威胁也层见叠出。域名系统作为完全开放的服务系统,对域名的无条件信任机制使其已成为网络恶意行为的关键组成部分。在经济利益的驱使下,攻击者使用恶意域名促进了僵尸网络和钓鱼网站的发展,导致受害者信息和设备数据泄露严重、DDos攻击泛滥以及病毒快速扩散等问题。为了逃避域名检测,不法者利用域名生成算法(Domain Generation Algorithm,DGA)生成海量域名以实现域名速变。因此,针对恶意域名的准确检测已经成为当前网络安全研究领域的热点之一,本文主要针对恶意域名挖掘技术展开研究,在分析对比现有研究的基础上,分别提出针对速变域名和误植域名的检测方法,从这两个方向实现对恶意域名的检测。首先,针对域名生成算法生成的域名具有一定迁移性和跳变性的特点,本文提出一种白名单与分类算法相结合的检测方法。该方法使用白名单对良性域名进行有效过滤,减轻后续分类的压力。从词汇特性和网络属性两方面提取特征,在域名词汇特性方面主要利用香农熵量化随机性、马尔科夫与N-gram量化域名的可发音性和差异性,在网络属性方面提取基于TTL、IP和WHOIS特性的特征,对两组特征处理后采用分类算法进行训练和分类。通过使用公开的域名数据集,对比分析XGBoost、SVM、朴素贝叶斯算法的分类效果,证明XGBoost能够提高域名检测的准确率。其次,针对误植域名与良性域名在字符上极为相似的特点,本文提出一种黑白名单与聚类方法相结合的检测方法,结合误植域名的特性,该方法采用Jaccard距离和共同字符个数占域名长度比例的加权调和平均值来量化相似度,使用基于密度聚类的DBSCAN算法将良性域名进行聚类,检测时采用黑白名单准确检测出尚在生命周期内的误植域名和良性域名,未成功过滤的域名,聚类分组后与组内域名计算编辑距离,若编辑距离小于设置阈值则判定为误植域名。通过使用公开的域名数据集,对比线性计算编辑距离方法以及不同阈值下的检测效果,证明所提方法在准确率相似的情况下能够提高误植域名检测的速度。