分布式WEB文档全文索引关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cjwxwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用领域的不断扩大,数据的规模越来越大,查询也越来越复杂,分布式索引以其高性能的特点而逐渐成为解决这类复杂问题的有效手段。由于Web数据具有海量的特征,对索引创建、索引更新、分布式索引数据分配都提出了更高的要求,关于这些方面的研究也成了热点,但是目前这些问题都没有得到较好的解决。课题正是围绕降低倒排索引创建的时空消耗、加快索引更新速度、加速检索三个方面展开。(1)本文提出了一种新的基于文档预处理的倒排索引创建算法。它有比传统的索引创建算法无论在时间效率还是空间效率上高得多的性能。该算法首先计算出索引文件所需要的存储空间大小,在索引创建的时候避开了外存的排序。有效提高了系统资源利用率,减少了索引创建时间。(2)由于Web数据更新速度较快,为了保持索引与文档的一致性,必须加快索引更新速度。本文采用了基于分块的增量式倒排索引更新策略,索引更新时不需要移动已有的索引文件,对检索过程影响也较小。基于分块的索引更新策略支持文档的插入、删除操作,又具有较高的更新和查询效率。(3)已有的全局索引分配策略,具有检索速度慢、可扩展性不强的缺点。为了能够提高系统的检索速度、增强系统可扩展性,设计了局部索引的数据分配策略。这种策略,在大规模信息检索系统中,能提供快速有效的分布式信息检索。(4)实现了分布式全文索引系统在竞争情报系统中的应用。该系统是一个集信息收集、信息存储、信息索引、信息查询为一体的信息处理系统,能够为用户提供快速、准确、及时的情报信息。
其他文献
近年来,人们在皮影戏保护方面展开了很多的研究与探索。为了改变皮影戏传统文化的现状,我们在皮影戏的数字保护方面做了研究与探索。针对于目前的仿真形式缺少对皮影戏整体综合
工程图矢量化是将纸介质工程图纸扫描输入计算机后,对所得的扫描图像加以分析、识别,最终重建其中的目标对象的过程。本论文研究的测井解释成果图是进行油气勘探开发时使用的工
搜索引擎是Internet迅猛发展的产物。它的出现使信息检索变得非常方便。但是,随着Internet以及随后出现的WWW技术的不断发展,导致网络所蕴涵的信息量急剧地膨胀。面对当前如
有限状态机用于对系统的动态行为建模,一般用状态图来可视化表示,是对反应式系统建模的一种强大工具。但是长期以来状态图仅仅作为软件设计过程中的动态视图,并没有作为一种开发
随着计算机技术和Internet的发展,基于网络的教学评价系统得到了长足的发展和应用。但是目前基于网络的教学评价系统采用的教学评价模型简单且已固化,不可替换,不仅维护性差,而且
近年来,Internet技术的快速发展,使得各种网络产品和网络服务层出不穷,网络用户数量和网络流量也越来越大,网络性能已经成为十分重要的问题。网络性能评价和测量技术也就变得越来
飞行器设计是一个由多门学科协同进行设计的过程。一方面各学科所涉及的知识领域不同,开发语言等编程习惯也不尽相同,各学科所开发的应用系统通常建立在不同的运行环境中,采用不
随着信息技术在工业界的迅猛发展,数据的规模与人们获取的数据也与日俱增,对这些海量数据的处理已成为近来年备受关注的问题。数据挖掘作为一种通用的知识发现技术,是在海量数据
一个系统的软件架构的建立包括业务模型架构和支撑环境架构两方面。分层架构强调基于层次化组件构建应用系统,本文结合中央电大教务管理系统的业务需求,按照分层架构的原则,介绍