论文部分内容阅读
信息检索作为信息获取的手段,是信息处理的重要内容,是当前信息处理研究领域中的研究热点。信息检索主要包括三个方面的内容:信息需求表达、文档表达和检索模型。其中,需求表达是一个重要的环节。只有当需求被正确地理解和表达时,才有可能得到好的检索结果;否则,如果不能很好地表达需求,再好的检索系统也无法得到好的检索结果。当前,机器检索本质上是基于关键词匹配的检索,将用户查询请求假定为是对用户信息需求的一个准确描述。但事实上,查询请求往往不能准确地描述用户的信息需求,这将不可避免地导致不太理想的检索结果。为了更好地描述和表达用户的信息需求,通常使用相关反馈的方法。相关反馈(包括用户相关反馈和伪相关反馈)方法试图从反馈的文档中寻找一组关联词项以增强用户的初始查询请求。实验显示,这种处理方法有一定的效果。然而,注意到这些词项的选取只是一种启发式的想法,通常假定用户的信息需求具有一个准确的描述。相关反馈方法试图利用反馈信息寻求用户需求的准确描述,但实际上用户需求的准确描述是难以得到的。这种利用相关反馈的方法进行的查询扩展只是对用户信息需求的一种猜想,并不准确。在本文中,我们采取了不同的方法。我们假定需求是一个语义范围。一开始,用户使用初始查询提出查询请求,当我们获得了一些反馈信息后(用户相关反馈或伪相关反馈),我们就能够建立一种对信息需求更好的描述,但这种描述不是试图去建立对信息需求的准确描述,而是概括性地去框定一个需求的范围。我们使用反馈信息建立需求的下界R和上界R,从而界定需求的一个范围。下界对应反馈文档的共有部分,上界对应反馈文档的全部内容。论文导出了需求的下界和上界,得到了需求域的两个边界,从而建立了需求域模型I=(R,R)。信息需求域具有以下特点:(1)信息需求域的下界表达了信息需求集中关注的内容,代表了信息需求的精度,也代表了信息需求的内涵;(2)信息需求域的上界包含了信息需求的延伸和扩展的内容,代表了信息需求的广度,也代表了信息需求的外延;(3)信息需求域较为松散地界定了用户信息需求的一个范围。论文中给出了建立需求域的两种机制:用户相关文档反馈机制和伪相关文档反馈机制。用户相关文档反馈机制要求用户从初始查询结果中标注反馈若干个相关文档,用这些文档建立信息需求域。伪相关文档反馈机制从初始检索结果中自动选取前n个(top n)文档,用这n个文档建立需求域。此方法的优点是自动化,无需用户参与,缺点是由于是伪相关文档反馈的结果,所反馈的文档不一定都是用户所需要的文档,因此,所得到的信息需求域是用户需求域的近似域。论文在需求域基础上,分析了文档相似度的计算方法,建立了需求域基础上的相似度计算模型。论文在通用的TREC测试集上通过一系列实验对所建立的模型进行了模型训练和分析,并进一步进行了一系列检索性能对比实验,以验证其有效性。在检索性能对比实验中,将所建立的需求域基础上的相似度计算模型与三种经典的模型(伪相关反馈语言模型Mixfb_kl_dir、伪相关反馈tf_idf模型Fb_tf_idf以及伪相关反馈概率模型Fb_okapi)进行了对比,对比实验结果显示,需求域基础上的相似度计算模型的检索性能得到了提高,表明所建立的模型是有效的,结果令人满意。与传统的方法相比较,传统的方法往往试图建立信息需求的一种准确的描述,而本文则是为信息需求建立一种较为松散的描述,使用需求域的方法去界定信息需求的一个范围。概况起来,论文研究的主要创新点为:(1)提出了用户信息需求域的概念,给出了确定信息需求域的方法;(2)提出了一种基于粗糙集的信息需求域的数学模型;(3)提出了一种基于信息需求域模型基础上的相似度计算模型。总之,论文研究的主要意义在于充实了信息需求的理论基础,并在此基础上建立了相应的相似度计算模型,提高了信息检索性能。从而为信息检索领域提供新的研究思路,充实新的理论和方法,并在实际应用中提高信息检索效率。