基于维基百科的查询重构技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:leidyteam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WEB搜索系统的基本任务,是找出满足用户信息需求的文档。然而,用户提交的查询往往很短,表达能力有限,因此影响了检索结果的精度。查询重构(又称查询扩展)技术是解决该问题的重要手段之一,它的主要思想是通过添加与原查询相关的单词(或短语)以提高检索结果的精度。本文对采用维基百科资源进行查询重构的技术展开了多方面的研究。主要工作如下:   基于语义短语的查询重构技术研究。原始的MRF模型以原始查询中的子短语为基础,通过添加多个词项依存的特征项来重构原查询,进而用于检索。该模型相对于仅使用原查询的方法,检索精度具有显著的提高。然而,MRF模型中的特征个数随着查询单词个数的增加呈指数增长,从而增加了计算开销。为解决这一问题,我们提出仅仅保留有确切语义特征项的改进思路。本文提出利用维基百科进行语义短语识别,并将基于语义短语的词项依存特征用于查询重构。在MRF模型上的检索实验表明,我们的方法与原始的MRF模型精度相当,但是特征数目远远少于原始的MRF模型。   自适应查询重构技术研究。传统的查询重构,往往将一种方法运用于所有的查询,其结果虽然能带来查询集整体搜索精度的提高,然而,有相当数量的查询因为重构而造成搜索精度明显下降。这是由于查询之间存在着明显差异,而单一的重构方法无法解决所有查询的问题。因此,本文提出自适应的查询重构方法,主要思路是先根据查询与维基百科文档的对应关系,将查询分成三个类别:实体查询,岐义查询和泛查询。然后,我们提出了一系列基于不同类别查询的查询重构方法,这些方法的区别主要在于伪相关反馈文档的生成方式和扩展词的选择方法。具体来说,我们提出了建立查询档案的伪相关文档生成方法。我们考虑了基于语义和统计信息的扩展词选取方法。本文还探讨了利用维基百科丰富内部结构挑选扩展词的方法。我们在四个大小和特性不同的TREC文档集上进行了ad-hoc检索实验,系统地分析和对比了这些查询重构方法对于检索精度的影响。根据实验所反映的查询类别与查询重构方法之间的关系,我们提出了自适应查询重构的具体实现方法,即根据查询的类别选择相应的方法。实验结果说明,自适应的重构方法能够从鲁棒性和准确度两方面改进检索结果。
其他文献
RFID(Radio Frequency Identification)是一种非接触、多目标、移动目标识别的自动识别技术,目前受到了全球范围内的广泛关注和大力推广。作为支持RFID技术应用最重要的核心服
作为一种积极主动的网络安全防护技术,入侵检测提供了对内部攻击、外部攻击和误操作的实时保护,在网络系统受到攻击威胁时响应入侵。入侵检测技术是防火墙技术的有利补充,受
DNA装配问题是指把各个读出序列(reads)拼接成一条完整的DNA链,即确定原DNA链的核苷酸“A,T,C,G”的排列顺序。实验中,由于各种原因,测序得到的读出片段序列与DNA链的实际结果会有
随着网络和多媒体技术的迅猛发展,数据库的应用也得到了更广泛的拓展,现代数据库技术已经开始融合多种技术。由于复杂性、多变性和数据存储量的不断增加,数据库系统的管理也
优化问题研究的是在众多方案中寻找最优方案,即在满足一定的约束条件下,寻找一组参数值,使得系统某些性能指标达到最大或最小。它广泛的存在于工业,农业,国防,交通,通信等领
运动障碍是中风的主要后遗症。中风后的运动功能随着时间推移会得到不同程度的恢复。大量脑功能影像研究已证实运动功能的康复过程与脑功能重组或代偿过程密切相关。但这种功
近年来,随着计算机网络应用范围的扩展,网络流量迅速增加,网络开始变得更加拥挤,这严重影响了网络的传输速率。一方面用户要求通信网络能提供高效的端到端服务质量的支持,另
随着嵌入式技术的发展,各种嵌入式数字电子设备在居民生活中得到了普及和广泛应用,如数字音频、数字电视机顶盒、数字电视等,对应的嵌入式软件也被大量的开发。嵌入式软件测试工
随着通信技术的飞速发展,网络规模也越来越大,传统的依靠手工来管理网络已经成为历史。网络拓扑结构是现在网络自动化管理的前提和基础,鉴于网络拓扑结构具有一定的动态性,要想通
随着Internet和WWW的流行,Browser/Server(B/S)系统设计和开发技术已经被越来越多的领域所采用,已成为现今系统的主要开发方法。一般的B/S系统都具有多层体系结构,同时简化了客