论文部分内容阅读
随着电子计算机应用技术的日益成熟和互联网应用的迅速发展,社会信息化进程加快,人类进入了一个信息爆炸的时代。因此能够使人们在海量数据中实现快速查找有用信息的信息检索技术应运而生。为了更好地解决信息检索中存在的问题,对诸如检索模型、排序算法、文档表示模型以及查询扩展等方面的研究迅速发展。其中,检索模型一直都是该领域研究的热点,尤其是语言模型在该领域的应用,极大地促进了检索模型研究的发展,并取得了较为丰硕的研究成果。但是经典的语言模型忽略了词汇间的潜在语义关联性。本文主要针对这一问题进行研究,发挥面向单一专业领域文档集的优势,挖掘词汇间的潜在语义关联并改进语言模型。本文主要分成以下三个部分进行研究:1.通过关联规则挖掘文档集中词共现对,并利用共现词对构建文档集词共现图和文档词共现图,发现文档中词汇间存在的语义联系。2.提出一种基于词共现的多因素混合文本主题词抽取方法。首先,对影响主题词的多种因素进行详细地研究与分析,并利用多种因素对词汇权重进行基础评分。然后,在文档中通过文档词共现图分析词汇间联系,并对词汇权重基础评分做出调整,最后完成主题词抽取。该部分研究为检索模型的建立提供了重要保障。3.提出一种基于词共现的语言模型。主要思想是,对面向专业领域文档集的各文档进行主题词标注,构建领域主题词表。在领域主题词表的基础上,将文档分成非领域主题词和领域主题词两部分。对于非领域主题词部分按照经典语言模型进行计算;对于领域主题词部分分别从两种不同角度分析词汇和主题词关系:宏观词共现和微观词共现,估计词汇与主题词之间的相似度进行计算,进而估算查询信息与文档的相似度。本文通过实验验证了基于词共现的主题词抽取方法的优越性,并证明了基于词共现的语言信息检索模型在面向专业领域的准确性。