面向内容的信息检索模型研究

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:gomo08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对目前自然语言处理领域的研究热点--信息检索模型存在的问题,结合统计自然语言处理以及HNC自然语言理解技术的研究现状,提出了将语义方法与统计方法结合进而构建检索模型的新思路,并给出了面向内容的信息检索模型的逐步构建方案。在方案中,语义萃取和表示以及权重估算、相似度的极大似然估计等技术融为一体,服务于检索模型。根据统计方法在整个模型中所占比重的不同,本文提出了两个重要的检索模型:“基于词汇概念知识的信息检索模型”、“基于句群语义的信息检索模型”。前者是一个面向非限定领域的信息检索模型,在模型中,HNC扩展句类分析系统被采用,借此实现词汇的概念知识抽取和表示,在这一基础上,多种统计方法,如向量空间法、语言模型法、聚类方法被考察,以试图找出在词汇概念知识级,语义和统计方法的最佳融合点。与前一模型相比,后一模型在语句的理解程度上更进了一步,它以句群理解为基础,根据句群理解获得的语境单元框架中的领域信息,对构成句群的文章进行分类,给出属于每类的置信度,同时根据每类出现每一概念的可能性计算出文章出现每一概念的可能性。最后根据语境单元框架中包含的关键概念运用统计方法对概念索引。由于是对句群的处理,所以文中还设计了对句群进行初切分的研究内容。   本文还对检索模型的工程化问题进行了探讨,内容主要定位在系统的数据结构和算法设计上,目的在于指导构建高性能的、具有实际应用价值的、基于内容的全文检索平台系统。   通过对以上内容研究,本文所表现出的主要创新点在于:   1)提出了语义与统计相结合的构建检索模型的新思路。给出了基于内容的信息检索系统的逐步构建方案,通过对两个重要模型的研究,证明了这一方案的可行性。该方案的主要特征为:将以HNC为基础的语义理解方法和统计检索方法进行了结合。实验表明,融入语义方法后,检索模型的检索效果都得到了一定程度的提高,在不同的检索方法下,准确率一致得到了提升(2%到8%不等)。究其原因在于:语义方法使得检索模型中融入了更多的语言特征信息,帮助检索模型更加客观的评分。   2)在对当前基于统计方法的检索系统的研究过程中,发现了其不足点。表现在:①在统计语言模型中,查询模型与文档模型之间跨度太大的问题。②统计语言模型中的极大似然估计风险问题。结合HNC语义表示的特点,本文提出了有针对性的改进意见,并在CGMSys模型中予以了体现,在最后测试中表现出了较好效果,在准确率一召回率指标上,在CIRB030测试集中,在Relax和Rigid评测标准下,它比传统VSM模型准确率分别高出了约6.8%和7.5%。同时,CGMSys也充分考虑了处理规模和检索速度两个指标,系统支持50000万条以上词条,40亿篇以上文章的检索处理;在对38万余篇文档进行检索、实际返回文档在15.1707万篇(平均值,并标记每个关键项在每篇文档中的出现位置)、普通PC环境下,42组检索条件(每组包含10项关键项)的平均检索时间仅为800毫秒,达到了较高水平。   3)在探索“基于旬群语义的信息检索模型”的过程中,制定了能够满足计算机处理需要的句群划分及判定的规则。这些规则基于已有的HNC语言概念空间表示方法,充分考虑了句群本身的构成特点。从对1203个旬群,4186个句子进行的实验来看。方法具有很高的句群切分召回率,约73%,同时具有很高的切分准确度,约82.9%,这为后续开展句群处理研究奠定了基础。   4)所提出的以概念作为中介的、基于词汇概念知识的信息检索模型初步解决了数据稀疏的问题。实验表明,采用了概念作为检索中介以后,系统索引文件的大小大大减少。采用词语索引的系统中,所有381375篇文档所建立的倒排索引头文件大小要比基于词语的少约52%,在基于概念的检索模型中,被索引的Token数量总共为120821个。在基于词语的检索模型中,被索引的Token数量总共为251206个。前者约为后者的1/2。数据稀疏问题的初步解决,有效提升了基于概念的检索系统的检索速度。   综上所述,本文通过对当前统计检索模型,自然语言理解技术的研究,提出了一种将统计方法与语义方法相结合的解决检索问题的新思路,实验表明,基于该思路构建的检索模型系统具有良好的性能,预示了一种崭新的解决检索问题的新方法的出现。
其他文献
近年来,预防和治疗的肿瘤疫苗在肿瘤免疫领域引起了人们极大的兴趣。目前的肿瘤免疫疗法有肿瘤疫苗、免疫检查点阻断疗法、过继细胞治疗等,在治疗不同类型的肿瘤方面已经显示
摘要:教育改革不断深入,初中物理作为培养学生科学素养的基础学科之一,必须要加强自身在教学方面的改进和提高,改变传统的教学模式,提高学生对物理知识的兴趣,为以后的学习打好基础。本文重点分析了我国初中物理教学存在的问题,并针对性的提出了相关的建议。  关键词:初中物理教学;问题;策略  初中物理这一门学科重点是培养学生的物理规律与相关的物理概念,进而能够使学生应用物理知识,以推动自然学科的发展。在新课
在人类认识和征服海洋的过程中,总会发生各种各样的事故和灾难,包括飞机海上失事和潜艇水下失事等。此时,需要对失事飞机或潜艇进行快速而有效的搜救,而对水下失事声信标进行快速
本文通过对荣华二采区10
期刊
胚胎着床是一个复杂的生理过程,胚胎着床的顺利完成,不仅需要神经递质、内分泌激素、细胞因子和免疫细胞协同作用,更涉及各种细胞因子和信号通路。近年来关于胚胎着床调控机
竹林生态旅游是指在被保护的竹林生态系统内,以观赏竹林生态景观为主要目的的旅游,竹林生态旅游以竹为主要观赏对象、以构成景观的竹林和竹文化为旅游目的地,旅游者通过与自然的
通信技术发展日新月异,在3GPP Release10(Rel-10)和Re1-11中,提出了可以有效提升链路的质量和频谱效率,解决宏网络覆盖空洞的的分层异构无线网络的技术方案,通过在宏覆盖范围
近年来随着遥感卫星数据的急速膨胀,以往的卫星数据记录和处理系统,以及技术方法逐渐不能满足业务应用的需求,中国遥感卫星地面站提出了建设多元卫星海量数据存储与处理系统,对地
智能视频处理技术涉及到许多基本技术,由于存在一些关键性技术仍然没有得到很好地解决,致使智能视频处理技术在其发展过程中受到一定程度的阻碍。本论文针对当今各种智能视频处
本文对采用均值位移,卡尔曼滤波和快速运动估计的物体跟踪算法进行了研究。文章深入分析了Mean Shift跟踪算法原理,并对它跟踪物体的本质进行了探讨,由此对它的权重更新方式进行