论文部分内容阅读
实体解析和查询处理是数据库和大数据领域中两个重要的研究课题。实体解析是指识别数据集中描述现实世界同一实体的多个元组,并且对这些元组进行合并的过程。针对大数据和含有重复元组的低质数据集,如果不考虑实体解析,可能导致传统查询处理方法低效,甚至失效。传统实体解析技术不能直接运用于查询处理,如何使得实体解析方法具有更好的有效性和可扩展性仍是悬而未决的问题。因此需要新的处理方法,既能够实时去掉重复元组又能够快速完成查询处理。为此,本文构建区域树索引,并基于该索引给出实时实体解析和查询处理方法。
构建区域树索引,对《维数据空间9T中的数据集进行实时实体解析。在ー个n维数据集中,每个元组是ー个《维实向量,针对存在重复元组的《维脏数据集,识别并聚类其中的重复元组:首先,提出空间划分算法PRC,将包含数据集的最小区域进行动态划分,每次将ー个区域划分为若干个互不相交且完全的子区域;其次,在划分过程中将》维区域空间构建区域树索引;最后,利用分治机制有效地进行实时实体解析,即将大型数据集分解成若干较小的数据集,应用区域树索引,对每个较小的数据集进行实体解析,这样既降低了对物理设备的配置要求又使得解析过程快速有效。
利用区域树索引和实体解析方法,给出点查询、区域查询及XNN查询处理的相应算法,得到的查询结果为不同的聚类或其代表。点查询利用区域树索引快速找到查询点所在叶节点,在节点链接的链表中针对列表属性,采用二分查找方法寻找查询元组位置,返回查询結果。
区域查询通过查询区域与区域树索引中叶节点相互比较,找出与查询区域相交或包含的叶节点,在这些节点链接的链表中采用二分查找方式按列表属性找到距离区域中心最近点,在一定阈值内顺序遍历其它节点,找出区域内元组。—查询运用点查询与区域查询的相应处理机制,动态更新查询区域半径,直到找出足个满足条件的元姐。
针对上述基于区域树索引的实时实体解析和查询处理方法,使用十五个不同维数的数据集进行广泛的实验,其中维数《的范围为2く“784。根据脏数据集中相应干净数据集的不同基数、不同维数及不同分布,实验对实时实体解析、点查询、区域查询及KNN查询进行了验证和分析。实验结果表明,本文给出的区域树索引和算法对实时实体解析和三类查询处理均具有较好的性能,对每条数据的处理均可在亚秒内实现,满足实时性要求。
构建区域树索引,对《维数据空间9T中的数据集进行实时实体解析。在ー个n维数据集中,每个元组是ー个《维实向量,针对存在重复元组的《维脏数据集,识别并聚类其中的重复元组:首先,提出空间划分算法PRC,将包含数据集的最小区域进行动态划分,每次将ー个区域划分为若干个互不相交且完全的子区域;其次,在划分过程中将》维区域空间构建区域树索引;最后,利用分治机制有效地进行实时实体解析,即将大型数据集分解成若干较小的数据集,应用区域树索引,对每个较小的数据集进行实体解析,这样既降低了对物理设备的配置要求又使得解析过程快速有效。
利用区域树索引和实体解析方法,给出点查询、区域查询及XNN查询处理的相应算法,得到的查询结果为不同的聚类或其代表。点查询利用区域树索引快速找到查询点所在叶节点,在节点链接的链表中针对列表属性,采用二分查找方法寻找查询元组位置,返回查询結果。
区域查询通过查询区域与区域树索引中叶节点相互比较,找出与查询区域相交或包含的叶节点,在这些节点链接的链表中采用二分查找方式按列表属性找到距离区域中心最近点,在一定阈值内顺序遍历其它节点,找出区域内元组。—查询运用点查询与区域查询的相应处理机制,动态更新查询区域半径,直到找出足个满足条件的元姐。
针对上述基于区域树索引的实时实体解析和查询处理方法,使用十五个不同维数的数据集进行广泛的实验,其中维数《的范围为2く“784。根据脏数据集中相应干净数据集的不同基数、不同维数及不同分布,实验对实时实体解析、点查询、区域查询及KNN查询进行了验证和分析。实验结果表明,本文给出的区域树索引和算法对实时实体解析和三类查询处理均具有较好的性能,对每条数据的处理均可在亚秒内实现,满足实时性要求。