论文部分内容阅读
                            
                            
                                词语语义相关度是表示两个词语相关程度的一个概念,它反映的是词语的关联程度,即看到一个词语,是不是可以想到另外一个词语,我们可以用两个词语在同一语境下共同出现的可能性来衡量这两个词语的语义相关度。语义相似度和语义相关度是两个很容易混淆的概念,语义相似度是指词语之间的相似性。语义相关度和语义相似度之间是有联系的,如果两个词语语义相似,那么它们一定语义相关,但是反过来,如果两个词语语义相关,它们不一定语义相似,所以我们可以将语义相似度作为语义相关度计算的一个组成部分。语义相关度计算对于机器翻译、信息检索、文本分析等自然语言处理研究任务具有重要意义,是一项基础性的研究工作。本文研究了现有的语义相关度计算方法,然后提出了一种基于搜索引擎的语义相关度计算方法,具体的工作如下:第一、现有的词语语义相关度计算方法大致可以分为传统的语义相关度计算方法和基于网络百科全书的语义相关度计算方法;而传统的方法又可以进一步分为两类:基于语义词典(WordNet、知网)的计算方法和基于语料库的计算方法。本文对这些方法需要用到的语义资源做了详细的介绍,紧接着阐述了每一类中具有代表性的几种语义相关度计算方法,详细分析它们的理论基础和特点。第二、提出了一种核函数与Page Counts相结合的语义相关度计算方法,Page Counts是我们使用搜索引擎进行查询时返回的页面数。这为我们进行语义相关度研究提供了一个新的方向,充分利用高速发展的网络技术,为我们的研究服务。同时,我们还从以下三个方面验证了该方法的有效性:1、分析其理论依据;2、在标准测试集上实验,然后与人工判断的结果做比较;3、特定环境下评估该方法。通过实验验证,本文提出的方法与单独使用核函数或者Page Counts计算语义相关度对比,得到的结果与人工判断的结果更接近,所以本文提出的方法是有效的。第三、本文介绍了语义相关度计算的一个应用——文本聚类,在词语语义相关度计算结果的基础上,对文本的语义相关度进行计算,我们可以提高文本聚类的精度。