论文部分内容阅读
得益于搜索引擎的推广,我们可以随时随地从互联网上获取自己所需的信息。但是基于信息呈指数级的增长速度和人们对搜索结果的更高要求,使得搜索引擎的智能化和个性化成为目前迫切需要解决的问题。那么如何在浩瀚的知识海洋中快速、准确地查找自己想要的那部分信息已成为新时代检索技术所面临的挑战。在传统的信息检索系统中,搜索引擎在描述用户查询与候选文档之间的关系时,往往仅考虑了词与词之间的字面匹配,并没有充分利用词语之间语义表达上的关联信息,这使得搜索结果与用户所需差距较大。本文从相关度出发,先利用主题模型对文档建模以抽取文档的主题信息,然后利用主题信息计算查询语句与候选文档之间的相关度并根据相关度对文档进行排序,最后将排序结果呈现给用户。然而,在上述过程中,主题模型表现出了自身的不足,一是主题模型中主题k值的选择过于随机化,这有可能因为不恰当的k值选择而使得主题与主题之间的区分度不够明显,造成主题之间的高重叠性;二是基于语料层的主题分布在某种程度上并不能完全代表单篇文章的主题分布,这可能会造成文档主题概率分布的高稀疏性,甚至会有损单篇文章的主题特征表示精度。基于以上两点,本文第三章和第四章分别对模型进行改进,使其能够最大程度地在信息检索任务上发挥作用。本文第三章提出了一种基于词向量主题模型的文本检索方法,该方法的主题建模部分充分考虑了主题之间的重叠关系和Gibbs抽样的初始过程。首先,利用词向量优秀的词语语义表达能力对主题之间的关系进行刻画,进而对主题模型中的k值进行再确定,使主题之间保持相对独立。另外,利用词向量对词进行聚合以改进Gibbs抽样过程中的词语的初始主题分配。然后,利用确定的k值,我们对语料进行主题建模,得出“文档—主题”、“主题—词”两个多项式分布矩阵,进而对矩阵进行运算得到“词”对“文档”的表征关系,这种“表征关系”在本文中被称为“贡献度”。在词语贡献度的基础上,我们可以把查询语句和候选文档集之间语义关系的紧密程度用“数值”描述出来。最后,通过这种“数值”关系对候选文档进行排序,进而将排序结果显示在用户查询界面上。本文第四章提出了一种基于聚类主题模型的文本检索方法,该方法是在第三章的基础上对主题建模方法和排序方法做出更进一步的改进。对于主题建模方法,基于传统主题模型在信息检索任务上的不理想表现,我们通过分析得出,对语料层上的主题建模在一定程度上造成了单篇文章主题分布的稀疏性并损失了主题在单篇文档中的特征表达精度,这就影响了单篇文档主题的真实概率分布。基于以上分析,我们在文本建模前先对文档集聚类,使主题相同或相近的文档集合尽可能聚集在一起,然后依次对聚类簇进行主题建模,充分发挥主题模型在信息检索任务上的建模能力。对于排序方法,在词语相关度计算方面,我们采用互动百科知识库对词语之间的相关度计算进行改进,使它们之间的语义关系变得更准确。本文实验所采用的语料库是NTCIR-5 (NACSIS Test Collections for IR),实验后利用TREC信息检索评测工具进行相关指标的测评。从实验结果可以看出,文中提出的基于词向量主题模型的文档检索方法和基于聚类主题模型的文档检索方法在MAP、R-precision和P@N指标上有良好的表现,提高了检索系统的准确率和召回率。这也间接表明本文方法的可行性。