论文部分内容阅读
WEB搜索系统的基本任务,是找出满足用户信息需求的文档。然而,用户提交的查询往往很短,表达能力有限,因此影响了检索结果的精度。查询重构(又称查询扩展)技术是解决该问题的重要手段之一,它的主要思想是通过添加与原查询相关的单词(或短语)以提高检索结果的精度。本文对采用维基百科资源进行查询重构的技术展开了多方面的研究。主要工作如下:
基于语义短语的查询重构技术研究。原始的MRF模型以原始查询中的子短语为基础,通过添加多个词项依存的特征项来重构原查询,进而用于检索。该模型相对于仅使用原查询的方法,检索精度具有显著的提高。然而,MRF模型中的特征个数随着查询单词个数的增加呈指数增长,从而增加了计算开销。为解决这一问题,我们提出仅仅保留有确切语义特征项的改进思路。本文提出利用维基百科进行语义短语识别,并将基于语义短语的词项依存特征用于查询重构。在MRF模型上的检索实验表明,我们的方法与原始的MRF模型精度相当,但是特征数目远远少于原始的MRF模型。
自适应查询重构技术研究。传统的查询重构,往往将一种方法运用于所有的查询,其结果虽然能带来查询集整体搜索精度的提高,然而,有相当数量的查询因为重构而造成搜索精度明显下降。这是由于查询之间存在着明显差异,而单一的重构方法无法解决所有查询的问题。因此,本文提出自适应的查询重构方法,主要思路是先根据查询与维基百科文档的对应关系,将查询分成三个类别:实体查询,岐义查询和泛查询。然后,我们提出了一系列基于不同类别查询的查询重构方法,这些方法的区别主要在于伪相关反馈文档的生成方式和扩展词的选择方法。具体来说,我们提出了建立查询档案的伪相关文档生成方法。我们考虑了基于语义和统计信息的扩展词选取方法。本文还探讨了利用维基百科丰富内部结构挑选扩展词的方法。我们在四个大小和特性不同的TREC文档集上进行了ad-hoc检索实验,系统地分析和对比了这些查询重构方法对于检索精度的影响。根据实验所反映的查询类别与查询重构方法之间的关系,我们提出了自适应查询重构的具体实现方法,即根据查询的类别选择相应的方法。实验结果说明,自适应的重构方法能够从鲁棒性和准确度两方面改进检索结果。