基于端口号、统计特征和协议特征字的实时数据流分类

被引量 : 0次 | 上传用户:cnzhchch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着互联网业务种类数量的迅速增长,网络协议的层出不穷,基于应用层协议的数据流分类算法也遇到了前所未有的挑战。由于数据流分类在攻击检测、流量控制等领域均具有重要的应用价值,因此,寻找到效率高、精确度好的数据流分类算法有着重要的研究及应用意义。本文致力于实时数据流分类算法的研究,使用三种分类方法串行结合的方式,通过端口号识别、统计特征分类、协议特征字匹配的方式,精确识别出数据流的应用层协议。本文的研究工作主要包括以下几个方面:1.基于知名端口号的数据流初分类:基于知名端口号的数据流分类算法是最早用于数据流分类的方法,它曾经一度作为数据流分类的主要算法。它具有时间复杂度低、算法简单等特点。然而,随着互联网应用的快速发展,端口识别的流分类方法越来越多的受到限制。本文使用该算法对数据流做初分类,实验证明,该简单而快速的方法能够识别出近40%的数据流应用。2.流统计特征的提取及筛选:基于内容无关的统计特征的流分类方法是当前流分类研究的热门。本文使用基于信息增益的前向贪心C4.5算法对大量的完整流统计特征进行筛选,随后对筛选后的特征子集进行改造,使其更加适用于实时业务流分类,而后使用易获得的载荷相关统计信息对此特征子集进行扩充后再次进行特征筛选,并构造训练集进行验证,最终得到适合实时业务流分类的特征子集和分类器,此步骤可识别部分新兴网络应用。3.应用层协议特征字匹配:基于协议特征字匹配的数据流分类算法具有准确度高、算法复杂度高、占用系统资源大等特点,因此本文将这一环节放在数据流分类的最后一步,对以上两种算法无法识别的数据流类型做最终的确认。本环节使用L7-filter指纹库中对各个应用协议提取的正则表达式,通过实验的方式将正则表达式尽量的缩短,以降低匹配的时间和复杂度,同时尽量保证匹配的准确度。4.分类方法串行结合识别应用层协议:由于完全依赖于协议特征字匹配的流分类算法以损失时间复杂度来满足精确度的要求,而知名端口号匹配方法和统计特征分类算法难以达到令人满意的准确率,因此,本文采取三种分类算法串行结合的方式对数据流进行分类,首先依據知名端口号进行初分类,识别出部分应用,然后对数据流统计属性进行筛选并做分类,剩余未识别部分则被传送至协议特征字匹配模块进行特征字匹配。为满足实时性要求,本文所述方法中的流统计特征全部筛选自流的前5个数据包。
其他文献
疯草是豆科棘豆属和黄芪属有毒植物的总称,是世界范围内危害草原畜牧业最严重的有毒植物之一。疯草的主要毒性成分是苦马豆素,其主要毒性作用是抑制细胞中α-甘露糖苷酶活性,
法条竟合与想象竞合的区分是必要且重要的,所谓“大竞合论”并不可取。在对我国《刑法》中的“本法另有规定”的内涵进行解读时,不宜采取“行为类型说”。“构成要件说”与“行
深海平台海底锚固基础主要有吸力式桶形基础和细长锚桩基础两种类型,基础的抗拔承载能力是深海平台正常使用的关键。国内目前的研究主要围绕着平台基础的模型试验展开,甚少涉
相同类型案件得到相同对待是法律制度安排中基于公平正义这一普世价值的当然回应。然而在当前司法实践中,“同案不同判”的现象屡见不鲜,从根本上背离了这一价值要求,并让本
随着高校体制改革的深化和大学毕业生日益严峻的就业压力,职业生涯规划的重要性日益显著,进行有效的职业生涯规划成了每个大学生都渴望学到的技能。文章从职业生涯规划的内涵
<正> 外语教学,无论是采用听说教学法,还是情景教学法,或者功能(交际)教学法,都离不开句型训练。结构主义语言学家认为,语言是一种模式化的行为,一种主要由类似习惯形成获得
随着经济全球化的发展,国际投资活动日益频繁,随之产生的间接征收问题日益增多,因此对间接征收问题的研究具有重大的理论价值和实践意义。本文从间接征收的合法性理论着手,横
简要阐述了一氧化碳的性质、中毒机理、症状及违规安装热水器引起中毒事故,本文旨在引导正确安装热水器,防止此类事故再次发生。
目的研究高频重复经颅磁刺激(r TMS)治疗帕金森病(PD)非运动症状(NMS)的临床疗效。方法给予65例PD患者经高频r TMS治疗,分别在治疗前、治疗后及治疗后1个月进行统一PD评定量
托马斯·哈代是享有世界声誉的英国著名诗人和小说家。作为跨越世纪的作家之一,他目睹了英国发生的深刻社会变革,对维多利亚时期的英国社会状况有着丰富的经历。工业革命之后