论文部分内容阅读
在当前互联网时代,如何便捷地从海量文本数据中获取有效信息是我们面临的巨大挑战。文本信息检索的主要任务是根据用户输入的查询语句,为用户找到最相关的文档。然而,由于用户的知识背景以及对检索系统的熟悉程度不同等原因,用户的查询构造能力往往有很大差别。已有研究表明有些用户输入的查询存在较大的歧义,并不能反映用户的真实需求,因此影响了检索结果的性能。通过分析用户输入的查询,更新查询模型,可以在一定程度上解决该问题。本文围绕查询分析问题,主要开展了以下几个方面的工作:
第一、基于用户查询日志开展了查询分析研究。通过对用户连续输入的查询语句进行分析,判断当前查询与上一个查询是否同属一个查询意图,根据查询语句之间的相似度,以及从查询日志中挖掘的用户点击信息,判断相邻的查询语句是否同属一个查询意图。进一步,通过挖掘查询语句中的子话题,以更准确地分析用户的信息需求。
第二、提出了一种基于语义图的查询重构方法。利用原始查询语句对应的伪相关反馈文档,结合外部语义资源,构建了一个两层的语义图,通过迭代更新计算词的权重,然后对原始的查询模型进行更新,并使用更新后的查询模型对结果文档进行重排序。
第三、开发了一个个性化检索工具,利用用户的查询历史和伪相关反馈文档,对用户当前提交的查询语句进行相应的模型更新,使用更新后的查询语句进行重排序。同时挖掘该查询语句的子话题,根据子话题对结果文档进行分类展示,保证结果的多样性。