【摘 要】
:
随着信息技术的迅速发展,涌现了大量Web数据,并且这些数据得到广泛的利用,特别是在企业应用中,因此对企业的数据处理能力提出了更高的要求。相似查询成为了在海量数据中获得
论文部分内容阅读
随着信息技术的迅速发展,涌现了大量Web数据,并且这些数据得到广泛的利用,特别是在企业应用中,因此对企业的数据处理能力提出了更高的要求。相似查询成为了在海量数据中获得满足一定条件数据的方式。目前基于refine and filter框架的字符串相似过滤算法主要包含索引建立、相似过滤、相似验证三个步骤,建立索引的空间复杂度和过滤以及验证的时间复杂度一直是相似过滤算法关注的焦点,很多学者都在对此类问题进行深入研究并提出各自的解决方案。本文先从字符串相似查询的研究背景、意义出发,通过介绍基本理论知识,引出字符串相似查询的概念,随后综述了近年来字符串相似查询的相关研究成果,介绍了目前主流的字符串相似查询算法,并进行了一定的分析和比较。针对大多数现有的基于分片的字符串近似匹配算法在集合中字符串长度差异比较大时的效率问题,本文基于字符串的特征模式进行字符串近似匹配。首先提出了字符串的特征模式—MC-Substring的概念;其次改进了求解LCS的并行算法用以求解字符串的特征模式,并基于字符串的特征模式来对整个字符串数据库进行索引的构建;然后根据提出的一系列过滤规则,在构建的索引基础之上对字符串进行过滤,形成候选集;最后通过gapped gram和编辑距离对候选集合进行验证,输出最终结果集。本文实验部分从算法效率,即时间和空间复杂度方面以及算法的可伸缩性方面进行分析和验证。实验证明,本文从文本分片的角度提出的字符串近似匹配算法,利用相关的并行算法,计算字符串的特征模式,在特征模式之上构建索引结构,在一定程度上可以提高字符串相似查询的效率,为从数据挖掘的角度处理字符串相似查询的问题提供了 一定的可能。
其他文献
从某种程度上来讲,人类在实际生活中,遭遇模糊因素是在所难免的。实际上,模糊符号经常被用来解释一些比较广泛的细节描述。研究模糊神经网络的稳定性既有趣又重要,因为模糊神
本文研究的多余物微小信号自动检测系统不仅被应用在航天领域进行多余物器件的筛选,保证航天电气系统的可靠运行,同样也为继电器企业以及其它密封器件生产企业提供质检依据。
目的:本课题以老年股骨粗隆间骨折术后发热患者为研究对象,以老年术后发热特征及中医思维理论立法,运用中医辨证论治思想方法进行病情分析,通过观测黄芪鳖甲散加减方在治疗老龄股骨粗隆间骨折PFNA内固定术后气阴两虚兼血瘀型发热的疗效,为高龄患者骨折术后发热的治疗提供临床资料。方法:在2017年05月至201 9年01月于山东中医药大学第一附属医院行单侧股骨转子间骨折PFNA内固定术的高龄患者中,挑选符合病
近年来随着网络的不断发展,网络数据也备受关注。信息化的今天,每天都会产生各种类型的网络数据,如何在这些庞大的数据中发现非法数据是我们急需解决的问题。由此网络取证技
陈智为教授,中国人民大学信息资源管理学院原党委书记、档案系主任。自1961年到2000年正式退休,不连续执教40年。先后完成《新编档案管理学》《婚姻档案管理学》《档案社会学
热磨机研磨分离论纤维是纤维板生产中的一个重要工序,因为这道工序的要求非常高,首先这道工序需要似的分离出的纤维材料的内部组织相对比较完整,而且各个厂商由于市场的关系
InSAR时间序列分析是在传统的InSAR技术上的进一步发展,旨在分析地表形变的时间演化。采用TOPS模式进行地表观测的哥白尼哨兵1A/B卫星星座为使用InSAR技术测量大尺度地表形变带来了前所未有的机会。虽然哨兵卫星搭载的是C波段的传感器,其受电离层大气影响的程度仅为L波段的十六分之一,但由于其特殊的TOPS成像模式,短波长信号的测量精度也会受到影响。随着InSAR应用对精度要求的提高,以及干涉
相变存储器是当前最具有希望替代传统存储器的新兴非易失性存储器,它具有存储速度快、存储数据密度高、循环擦写寿命高、高能耗比、抗辐射以及与CMOS兼容性好等优势。存储器
订单农业供应链实现了农户的“小生产”和“大市场”的有效对接,有效缓解了它们之间的矛盾,在我国得到了普遍推广。然而,在订单农业实际运营中,农业企业除了要应对频繁发生的