【摘 要】
:
当今社会在生产与生活中产生的数据越来越多。以前,以结构化数据为主,现在随着互联网的发展,非结构化资源成为主流,要在这些异构数据中快速查询有用的信息,索引的架构直接影
论文部分内容阅读
当今社会在生产与生活中产生的数据越来越多。以前,以结构化数据为主,现在随着互联网的发展,非结构化资源成为主流,要在这些异构数据中快速查询有用的信息,索引的架构直接影响海量异构数据检索的效果。如何架构高效的索引成为解决海量异构数据查询的关键问题。现在主要研究的是异构数据,为了适应异构数据的特点,提出了数据空间的概念,来解决目前数据管理领域的困难。数据空间支持对多数据源的多种查询,类似已经存在的桌面搜索系统。倒排列表这种索引架构适应数据空间中检索数据,如何利用用户搜索信息和倒排列表本身特点,更好对索引架构进行改进已成为异构数据索引架构的研究重点。本文对各种倒排索引架构进行研究分析,总结了各种索引架构的优缺点和系统负载均衡的要求,提出了利用关键词频率和齐夫定律概率分布函数来对垂直划分的倒排列表进行划分。和其他倒排列表的划分方法相比,更能使数据空间系统达到性能均衡的效果。在垂直划分的倒排列表基础上进行属性领域划分,构成扩展的二维索引架构,减少了无关元组的匹配和排序时间消耗,提高了查询处理性能。增加改进后的二维索引副本个数,可以构成三维索引架构,增加了系统并行处理查询任务的能力。实验结果表明利用齐夫定律概率分布函数对垂直划分的倒排列表进行划,和对垂直划分的倒排列表进行属性领域划分扩展成二维索引,从而在扩展成三维索引,可以使系统处理查询任务时达到负载均衡状态和增加系统处理查询的并行能力。
其他文献
多工滤波器是微波通信系统中的重要组成部分之一,用于通道的选择和信号的合成与分离,其性能优劣将直接影响整个通信系统的质量。随着频率资源的日益紧张,分配到各类通信系统
自动信任协商ATN(Automated Trust Negotiation)主要研究的是跨安全域中资源安全的访问问题。为了使系统在协商中安全,敏感信息保护成为了自动信任协商重点研究内容。ATN中敏
随着电子电力系统的发展,对半导体电子器件在高温、高压、高频和强辐射环境下的性能也提出了更高的要求。碳化硅材料因其禁带宽度大、高热导率、高击穿场强、高电子饱和速度
工业管道在石油、化工、核电等行业都发挥着举足轻重的作用,复杂、恶劣的工作环境和载荷情况造成的各种缺陷是工业管道断裂事故频发的主要根源,定期对含缺陷工业管道进行断裂
命名数据网络(Named Data Networking,NDN)是一种革命式的新型网络架构,改变当前互联网主机—主机的通信机制,使用内容名称而非IP地址进行通信,其首要考虑对象是内容本身,而
低温是阻碍植物生长、影响作物产量和限制植物地理分布的主要非生物因素之一。经过长期的进化,很多植物已产生了适应低温环境的生理机制。许多研究表明,胚胎晚期富集(LEA)蛋
随着单芯片集成工艺的发展,基于传统总线式通信的片上系统逐渐成为制约芯片处理能力的瓶颈,复杂的架构,低效率的数据通信都迫使人们将目光转向片上网络技术的研究。片上网络
对称性理论是物理学中更高层次的法则,对称性分析作为一种科学的研究方法,广泛应用于数学、物理等学科,具有重要的理论价值和实际意义。在连续力学系统对称性与守恒量理论不
有限元线法(Finite Element Method of Lines,简称FEMOL)是一种新型的半数值半解析方法,它以常微分方程(Ordinary Differential Equation,简称ODE)求解器为支撑软件。此方法
丝状真菌因其拥有强大的蛋白分泌能力而被广泛应用于工业酶的生产。随着基因工程与分子生物学的发展,利用丝状真菌生产重组蛋白越来越受到人们的关注。由于任何单一菌种都不