基于众核硬件的模式匹配算法加速技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:JK0803zhushuangyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着网络化的发展,各行各业的数据呈现爆炸式增加态势。据IDC预测,到2020年全球的数字信息总量将达到惊人的35ZB,信息内容监管将面临巨大挑战。模式匹配算法是文本处理领域基础且非常重要的算法之一,广泛应用在网络入侵检测、生物信息学、图像处理等领域。基于软件实现的模式匹配算法,由于需要消耗大量的处理器资源和存储资源,系统的实际性能往往不高,采用高性能的硬件来处理海量数据势在必行。GPU是一种具有超强并行计算能力的众核可编程硬件,目前已被用于加速模式匹配算法性能。本文旨在充分利用GPU、CPU各自的硬件特性,结合模式匹配算法的适用性,最终设计并实现高效的模式匹配算法。本论文主要的成果与贡献如下:(1)模式匹配相关技术研究。本文详细介绍了精确模式串匹配相关技术和正则表达式匹配相关技术,并分析了相关算法的优缺点。(2)提出了在CPU和GPU上实现的基于状态转换表(STT)分割的大规模精确模式串匹配SPAC算法。本算法主要解决由模式串集合生成的Trie树对应STT在GPU中内存占用过大的问题。实验表明,SPAC算法可以在GPU上减少约50%的STT空间占用,在处理大规模精确模式串匹配时效果尤为明显。(3)提出了在CPU和GPU上实现的高速正则表达式匹配MDFA算法。本算法主要解决在GPU上进行正则表达式匹配时,文本块之间的“边界”问题处理,GPU进行多个子文本块的并行处理,CPU对子文本块的边界进一步处理。实验表明,当正则表达式集合对应的最大可匹配字符串较长(或限定可匹配长度较长)的情况下,MDFA算法可以有效的减少GPU中相邻work-group之间冗余字符的比较。
其他文献
LFC语言是以上下文无关语言为数据类型的函数式语言,在形式规约获取系统SAQ中用作形式规约语言。LFC语言的检验分成两部分:即上下文无关文法检验和LFC函数检验。本文以LFC语言
ENUM(Telephone Number Mapping,电话号码映射)技术是近年来网络资源寻址定位方面研究的热点。在三大网络逐渐融合的趋势下,ENUM有着很乐观的前景。ENUM的深入研究和使用推广对
门户是一种基于web的应用系统,它可以集成来自Internet、Intranet和应用系统的各种信息,使员工、客户和合作伙伴能够从单一的渠道访问其所需的个性化信息。门户通过及时地向用
随着信息技术和通信技术的发展,计算机安全占据越来越重要的地位,而操作系统安全是计算机安全的必要条件。鉴于操作系统面对着来自内外部环境的各种安全攻击和威胁以及操作系统
电子检务是指检察机关以信息网络技术为支撑开展的检务活动,是我国电子政务的一个重要组成部分。电子检务网络是一个基于TCP/IP协议通过检察专线网连结全国3500多个检察院局域
学位
动画技术在万维网上的应用范围很广。近年来,研究网上动画生成技术已经逐渐在国内成为热门,而国外,各种用来实现网上动画的制作工具、编程语言、编程接口已逐步被开发出来。  
学位
数据挖掘是从大量数据中发现潜在的、有趣的知识的过程,是解决“数据丰富,知识贫乏”状况的有效方法。关联规则挖掘用于从大量数据中揭示项集之间的有趣关联或相关联系,是数据挖
Portal通过Portlet提供了应用集成能力。随着Portal的广泛使用,仅将应用进行简单集成已经不能满足企业需求。Portlet之间必须具备互操作性,以利用现有应用组建新的业务流程。 
当今,面对市场、资金、和竞争的快速变化,给企业的IT战略提出了全新的挑战,促使企业向随需应变型企业转变,所以企业需要重新建立一个新的基础架构。面向服务架构(SOA)思想的提出
远程监控指在距离被监控对象很远的地方对设备进行监视和控制。远程监控作为一种重要的信息技术,在现代工商业和日常生活中已经得到广泛的应用。一些典型的应用包括视频监控系