提高信息检索准确性的技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:A55190684
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何提高信息检索系统的准确性一直是研究人员最关心的问题。本文首先简单介绍了信息检索的一些基本概念及其评测的相关内容,然后从以下几个方面展开,研究提高信息检索系统准确性的一些技术:   1.比较信息检索的布尔模型、向量空间模型、概率模型和语言模型。实验表明:语言模型能通过调节平滑参数使得系统的准确性超过其它模型;而且测试集越大,词语的分布就越均匀,那么对文档的最大似然估计的置信度越大,系统的准确性也就越高。   2.研究查询扩展对系统准确性的影响。文中提到了两种查询扩展的技术—基于词典的扩展和基于相关反馈的扩展。实验表明:在前一种方法中,扩展名词、形容词和副词均可以使系统的准确率得到提升,而扩展动词反而会降低系统的准确率;通过词义消歧对扩展词进行噪音过滤在本文实验中没有取得应有的效果;在后一种方法中,本文提出了基于语言模型的扩展词特征选择方算法,与已往算法相比,本文提出的算法能提高系统的准确性。但是,在初次查询结果不佳的情况下,这种方法反而使得系统的准确性降低。   3.探索自然语言处理技术在信息检索中的应用。介绍了五种词间关系模型,即二阶语言模型、基于词对的语言模型、基于窗口的语言模型、依存语言模型和基于概念的语言模型。实验表明,与“词袋子”模型相比,上述五种模型都可以在一定程度上提高检索的准确率,其中窗口为3的语言模型使系统获得最高的准确性。   4.通过初始化查询权重,模拟了文档模型和查询模型。实验结果表明:只有当测试集比较大的时候,文档模型才能近似看成查询模型。   5.将网页评级技术引入了基于语言模型的信息检索框架。实验结果表明:区分网页的质量会提高信息检索的准确性。   最后介绍了作者参加TREC2005 HARD任务与863信息检索评测的情况。
其他文献
近年来,随着智能服务机器人研究的不断深入,使机器人获得更多的外界信息,完成更复杂的服务任务,是当前机器人研究领域亟需解决的问题。语义地图包含丰富的环境信息,并且可以
扩散张量成像(DTI)是一种非侵入性的能提供活体内水分子扩散运动的成像技术,它能检测传统MRI所不能观察到的组织的微观变化,是MR成像技术的重大突破。本文以重大神经疾病的临床
人机口语对话系统是基于语音的人机接口。近些年来,口语对话系统的研究成为一个热点,很多家机构投入其中,推出的系统多达上百个。不过这些对话系统大多是基于限定任务的,例如旅游
在工业制造生产过程中,对控制的需求越来越高。PAC是一种新型的可编程自动化控制器,在控制性能、信息处理、数据采集以及网络通讯能力具有一些比较显著的优点。PAC吸收了PLC
智能交通是解决当今由于经济的发展所带来的交通问题的根本办法,车流波是智能交通中的一个基本问题,它的研究需要大量的微观数据。传统上,这些数据是通过埋藏于地下的磁感应线圈
硬件仿真实验是研究智能交通系统的一种有效方法。在实验室环境下以一定比例微缩的交通路网和智能车辆作为实验工具开展车车、车路协同研究,与软件仿真相比,更能真实地反映出在
现代战场对武器性能的要求越来越高,对自行高炮火控系统进行误差分析,寻找影响射击精度的主要因素,将为新型自行火炮总体方案论证、总体设计、射击法则的制定以及有效地发挥自行
本文以简易制导炸弹为研究对象,分析了其所受外力及力矩的作用情况,建立了相应的坐标系统和完整的空间运动的数学模型。在此基础上,通过小扰动理论将简易制导炸弹的空间运动数学
工业过程中的时滞现象是非常普遍的,大时滞的存在严重影响了系统的稳定性,导致系统的超调量变大,调节时间大大加长,甚至出现振荡、发散,系统的动态品质明显变差。虽然,从50年代末以
学位