论文部分内容阅读
如何提高信息检索系统的准确性一直是研究人员最关心的问题。本文首先简单介绍了信息检索的一些基本概念及其评测的相关内容,然后从以下几个方面展开,研究提高信息检索系统准确性的一些技术:
1.比较信息检索的布尔模型、向量空间模型、概率模型和语言模型。实验表明:语言模型能通过调节平滑参数使得系统的准确性超过其它模型;而且测试集越大,词语的分布就越均匀,那么对文档的最大似然估计的置信度越大,系统的准确性也就越高。
2.研究查询扩展对系统准确性的影响。文中提到了两种查询扩展的技术—基于词典的扩展和基于相关反馈的扩展。实验表明:在前一种方法中,扩展名词、形容词和副词均可以使系统的准确率得到提升,而扩展动词反而会降低系统的准确率;通过词义消歧对扩展词进行噪音过滤在本文实验中没有取得应有的效果;在后一种方法中,本文提出了基于语言模型的扩展词特征选择方算法,与已往算法相比,本文提出的算法能提高系统的准确性。但是,在初次查询结果不佳的情况下,这种方法反而使得系统的准确性降低。
3.探索自然语言处理技术在信息检索中的应用。介绍了五种词间关系模型,即二阶语言模型、基于词对的语言模型、基于窗口的语言模型、依存语言模型和基于概念的语言模型。实验表明,与“词袋子”模型相比,上述五种模型都可以在一定程度上提高检索的准确率,其中窗口为3的语言模型使系统获得最高的准确性。
4.通过初始化查询权重,模拟了文档模型和查询模型。实验结果表明:只有当测试集比较大的时候,文档模型才能近似看成查询模型。
5.将网页评级技术引入了基于语言模型的信息检索框架。实验结果表明:区分网页的质量会提高信息检索的准确性。
最后介绍了作者参加TREC2005 HARD任务与863信息检索评测的情况。