论文部分内容阅读
互联网上存储着海量的信息资源,但由于信息资源存在多样性,人们使用的语言存在差异性,导致人们在获取资源的时候很难对信息资源进行有效的解读。如何从大规模信息中获取用户所需的多语种信息资源成为当务之急,跨语言信息检索也逐步发展成为信息处理技术的一个重要研究方向。跨语言信息检索的核心就是允许用户使用自己熟悉的母语获取其他语种的资源。目前较为普遍的跨语言信息检索大多数采用基于翻译的单语言信息检索,需要较高的翻译质量,对计算机资源的要求也很高。另一种是借助双语词典的方法,此方法虽然在查询扩展方面对检索的召回率有一定的提高,但是在翻译模型训练方面却需要大规模的、高质量的、翻译完好的平行语料,而优质语料的获取仍是一大难题。本文提出了基于潜在语义分析的跨语言信息检索模型,利用平行语料和潜在语义技术,实现中朝英多语种科技文献信息检索系统。主要工作如下:首先,收集并整理中朝英科技文献摘要平行语料,根据计算机资源限制划分语料集,并对每个语料集建立词典,有效解决大规模词项-文档矩阵的奇异值分解的工程问题,建立多重潜在语义子空间。其次,对用户提供的查询,根据词共现准则定位待检索的潜在语义子空间(目标子空间),结合Word2vec模型对原始查询进行查询扩展,并引入新的空间维度进行向量化处理未登录词,最终在目标子空间进行检索获得多语种检索结果。最后,基于本文研究提出的方法开发出中朝英跨语言科技文献信息检索系统。实验和系统运行结果表明,所设计系统查准率、召回率达到设计要求,基于潜在语义空间模型的查询相似度基本达到85%以上。也表明潜在语义空间模型在跨语言信息检索中能够较好地表征文档语义信息,能够保证跨语言检索系统的准确性和有效性。