论文部分内容阅读
随着WEB2.0的兴起与高速发展,产生了大量的WEB信息,并被广泛地传播。目前,人类产生的信息正在以指数的速度增长,为了更好地利用这些信息,人们希望能迅速地从计算机得到对自己有用的信息,希望计算机能自动地、更智能地挖掘信息,能更好地理解和处理自然语言。词语之间的语义关联度对于这些计算机应用至关重要。语义关联度计算作为基础性研究,在信息检索、拼写检测、文本分类、文本聚类、人工智能、自然语言处理相关的词义排歧、智能问答、自动摘要和机器翻译等研究领域发挥着重大的作用。对于机器来说,判断不同词语之间的语义关联度是一个复杂而艰难的任务,需要现实世界的有关实体的诸多概念及其关系、常识和某些特定领域的知识作为支撑。有些方法通过对大型语料库进行统计分析来实现语义关联度的计算;有些方法通过已有知识库如语义词典或分类系统来测量语义关联度。对于前者,无结构和不准确的语料库是难题;对于后者,范围和数量级的限制非常突出。维基百科是非常好的语义知识库,维基百科文章网络和分类树,是两个包含丰富的、明确的、具有一定结构的语义知识的网状结构。本文为了研究词语或短语之间的语义关联度计算问题,首先,将目标词语分别映射到维基概念(第三章将给出定义);然后,通过计算维基百科概念间的语义关联度来得到目标词语之间的语义关联度。本文的主要研究内容和贡献如下:1)介绍了语义关联度计算的研究背景、现状和缺陷,介绍了语义关联度的概念和评价方法,并分析了现有语义关联度算法的特点。2)提出了基于维基百科文章网络和Jaccard系数的简单的语义关联度计算方法RelArtNetSimple;然后,引入权重概念,将链接和概念节点都赋予权值,并将概念节点层次地划分;最后,基于层次划分的、带权重的概念节点,提出基于文章网络的语义关联度算法RelArtNet。3)以信息论为理论基础,结合本体,提出了基于分类树本体信息内容的语义关联度算法和基于分类树本体的结构的语义关联度算法;综合前两种算法,进而提出了基于维基百科分类树的语义关联度算法RelCatTree。4)本文采用Spearman等级相关系数来衡量目标算法与人工识别的结果的相关程度,测试集采用语义关联度研究领域常用的三个数据集:Miller and Charles (1991)(含30对词语),Rubenstein and Goodenough’s (1965)(含65对词语)和WordSim-353datasets (Finkelstein et al.,2002)(含353对词语)。通过实验结果分析,证明本文提出的WSR算法具有良好的准确率和理想的复杂度。