基于词共现的语言模型信息检索方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:kahn419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子计算机应用技术的日益成熟和互联网应用的迅速发展,社会信息化进程加快,人类进入了一个信息爆炸的时代。因此能够使人们在海量数据中实现快速查找有用信息的信息检索技术应运而生。为了更好地解决信息检索中存在的问题,对诸如检索模型、排序算法、文档表示模型以及查询扩展等方面的研究迅速发展。其中,检索模型一直都是该领域研究的热点,尤其是语言模型在该领域的应用,极大地促进了检索模型研究的发展,并取得了较为丰硕的研究成果。但是经典的语言模型忽略了词汇间的潜在语义关联性。本文主要针对这一问题进行研究,发挥面向单一专业领域文档集的优势,挖掘词汇间的潜在语义关联并改进语言模型。本文主要分成以下三个部分进行研究:1.通过关联规则挖掘文档集中词共现对,并利用共现词对构建文档集词共现图和文档词共现图,发现文档中词汇间存在的语义联系。2.提出一种基于词共现的多因素混合文本主题词抽取方法。首先,对影响主题词的多种因素进行详细地研究与分析,并利用多种因素对词汇权重进行基础评分。然后,在文档中通过文档词共现图分析词汇间联系,并对词汇权重基础评分做出调整,最后完成主题词抽取。该部分研究为检索模型的建立提供了重要保障。3.提出一种基于词共现的语言模型。主要思想是,对面向专业领域文档集的各文档进行主题词标注,构建领域主题词表。在领域主题词表的基础上,将文档分成非领域主题词和领域主题词两部分。对于非领域主题词部分按照经典语言模型进行计算;对于领域主题词部分分别从两种不同角度分析词汇和主题词关系:宏观词共现和微观词共现,估计词汇与主题词之间的相似度进行计算,进而估算查询信息与文档的相似度。本文通过实验验证了基于词共现的主题词抽取方法的优越性,并证明了基于词共现的语言信息检索模型在面向专业领域的准确性。
其他文献
语文学习离不开良好的学习习惯,而当前的语文教学中,存在着急功近利的现象,忽视了习惯的培养。语文教师要从识字、书写、诵读、写作、积累等各个方面,培养学生的语文学习习惯
特重烧伤病人病情危重,病程长,治疗复杂,护理任务繁重,因此在特重烧伤救治中护理工作显得极为重要。1998年1月至2002年12月,我院收治特重烧伤病人30例,疗效满意,现将护理体会报告如
教育中的继承与变革具有差异性,这是教育中的继承和变革本身具有的特征,与此同时教育也具备同一性:这主要表现在教育的价值取向上和外在功能上。由此推论出教育中的继承与变革
目的:观察低频超声波辐照治疗对糖尿病大鼠创面愈合的影响,并探讨其可能的机制,为治疗糖尿病难愈性创面的新方法提供理论依据。方法:将45只健康雄性Wistar大鼠随机分为3组,即
此文系新岛淳良所著《毛泽东的哲学》一书第三章摘译。该书的特点是针对日本国内毛泽东哲学思想研究中的一些观点提出商榷,有助于了解日本对毛泽东哲学思想研究的动态。我们
金属烤瓷修复体的瓷体脱落或部分碎裂脱落后,可用离体瓷片或光固化复合树脂在口腔内直接修补缺损的部分。本文通过点式电解蚀刻的方法使烤瓷合金表面形成均匀、有规律分布的超