【摘 要】
:
随着网络设备软硬件技术的提高和网络用户的日益增加,网络上的数据流量正在以爆发式的趋势增长。随着大数据相关科技的发展,大数据的处理算法面临着更加严峻的挑战,模式匹配
论文部分内容阅读
随着网络设备软硬件技术的提高和网络用户的日益增加,网络上的数据流量正在以爆发式的趋势增长。随着大数据相关科技的发展,大数据的处理算法面临着更加严峻的挑战,模式匹配作为许多前沿技术的基础而被广泛研究,而模式匹配的一个分支——字符串近似匹配往往用于信息搜索、安全检测、生物计算等。提高解决大数据应用问题的高性能近似模式匹配算法之性能是当前一个极具探索价值的问题。本文引入了一类新型近似模式匹配问题——允许文本中相邻两字符交换的近似匹配算法,并提出了相应算法以及理论分析和实验。首先定义了交换的概念,交换是文本中相邻的互不相同的两字符的交换。字符串的交换版本是该字符串经过几次交换操作而转换成的字符串。本文提出了一种允许文本中相邻两字符交换的近似匹配算法,该算法首先采用过滤的思想将文本串划分为两个文本段集合:不匹配集合与候选段集合。我们改进以往的近似串匹配算法,将算法的适用范围扩展到额外允许出现交换的情况。与已有的相关算法不同,该算法能够更加符合现实应用的要求,具有一定的实用性。另外为了提高匹配效率,我们在上述过滤思想的基础上,直接过滤掉不可能发生匹配的匹配集合,将改进的近似匹配算法应用到候选段集合中,这样会尽可能高效准确的找到所有的近似匹配位置。一般的近似串匹配算法理论时间复杂度往往是介于O(n~2)到O(mn)之间。我们证明在一般情况下本文提出的算法的时间复杂度为O(m+kn)。正如论文所表述的,之所以能够在较少的时间复杂度内完成匹配是因为算法在设计时利用了精确匹配高效的特点,整个算法在执行过滤的过程中大多时间段内都在使用精确匹配来搜素候选区域,于是在一般情况下算法的时间复杂度更趋近于精确匹配。为了验证算法性能,我们使用两种不同的测试数据分别做了对比实验,使用基于已有算法而改进的算法与本文提出的算法作对比,在相同条件下计算实验显示在允许一定小范围误差下,本文提出的算法性能要远远优于以往的改进算法。但是随着允许误差限制的放宽,算法也会显示出其弊端,算法的执行效率将会逐渐下降,这将是本论文结束后继续探究的问题。但是就目前的现实场景来看,文本误差率也即是允许误差限制往往低于实验中使用的测试样例,因此该算法在实际应用场景中会具有较高的匹配效率。
其他文献
本文以中国地方猪深县猪和国外猪种杜洛克为试验对象,对比2个品种猪背最长肌之间的肉质、氨基酸含量、脂肪酸含量和微量元素之间的差别。以深县猪和长白猪为试验对象,利用转录组测序,分析影响深县猪肌内脂肪沉积的相关候选基因及相关信号通路及SNP。以候选基因ACOX3为研究对象,利用PCR扩增和直接测序,分析ACOX3基因的第2和第12外显子上SNPs位点。肉品质分析结果表明:深县猪的肌内水分、肉色、大理石纹
再制造是废旧产品回收再利用的有效途径之一,有助于降低成本、减少资源浪费和环境污染,具有巨大的经济效益和社会效益。伴随废旧产品回收产生的逆向供应链与传统正向供应链结
研究背景:异常体动脉供血肺基底段是一种罕见的先天性异常,其动脉供应来自肺下叶的一个或多个基底节。动脉供应起源于胸降主动脉的异常动脉。大多数研究人员声称,最常见发病
阿尔茨海默症(Alzheimer’s disease,AD)是发病率最高的神经退行性疾病,患者大多伴随着大脑皮质萎缩、神经元丧失、淀粉样蛋白聚集以及金属离子的过量堆积等病理特征。伴随着
化学链燃烧(CLC)技术是一种新型的CO_2捕集技术,氧载体作为CLC系统的核心是目前研究工作的重点。Fe基氧载体因其成本低和无污染的特性而受到特别关注。可是高铁含量氧载体反应中易烧结失活,通常将其负载到惰性载体上,但Fe_2O_3与惰性载体在高温循环反应中容易发生相分离,导致活性组分不能有效负载(≦50%),另外,Fe_2O_3也会与载体反应生成惰性金属氧化物,造成稳定性降低。六铝酸盐具有特殊的
气候变化是全球的热点话题之一。对于气候变化的研究,传统的器测记录仅能提供有限的视角,这在一定程度上制约了对于气候要素的变化和预测研究,而稳定同位素是可以从时间和空
溶解性有机质(Dissolved organic matter,DOM)是水土的重要组成部分,含有丰富的羧基、羟基、羰基等官能团,具有较强的迁移、转化、络合、吸附等能力。自20世纪90年代起,国内外
石油资源对当今世界的经济政治格局的影响举足轻重,对石油进行勘探开采具有重要的十分重要的战略意义。在油气藏资源开采之前,必须要通过测井来探明油气资源的可采储量与储层周围的地质特性,对油气资源潜力进行分析。微电阻率扫描成像测井技术可以采集井眼周围地层大量数据,其分辨率高,适用于对各种复杂地层的测量,在对具有复杂岩性、裂缝性油气藏进行勘探时具有独特的优势。随着近几年,我国南海大陆架丰富的油气资源被发现,
在全球变暖的背景下,认知长江中下游地区近地面风速的时空变化特征,并识别其与相关影响因子之间的内在联系,这有利于提高对长江中下游地区近地面风速的分析和预测,对风能资源
(S)-(4-氯苯基)吡啶-2-甲醇是抗组胺类药物卡比沙明和苯磺酸贝他斯汀等合成中的重要手性砌块。但目前主要是化学法合成,污染大且劳动保护要求高。虽然有生物法在研究,但其催化效率和立体选择性远远达不到药物合成的要求。因此,本研究采用半理性设计方法对来自高温厌氧杆菌(Thermoanaerobacter brockii)的醇脱氢酶(TbSADH)进行定向进化改造。基于其晶体结构,通过分子动力学模拟对