词语语义相关度计算研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:adongjie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语语义相关度是表示两个词语相关程度的一个概念,它反映的是词语的关联程度,即看到一个词语,是不是可以想到另外一个词语,我们可以用两个词语在同一语境下共同出现的可能性来衡量这两个词语的语义相关度。语义相似度和语义相关度是两个很容易混淆的概念,语义相似度是指词语之间的相似性。语义相关度和语义相似度之间是有联系的,如果两个词语语义相似,那么它们一定语义相关,但是反过来,如果两个词语语义相关,它们不一定语义相似,所以我们可以将语义相似度作为语义相关度计算的一个组成部分。语义相关度计算对于机器翻译、信息检索、文本分析等自然语言处理研究任务具有重要意义,是一项基础性的研究工作。本文研究了现有的语义相关度计算方法,然后提出了一种基于搜索引擎的语义相关度计算方法,具体的工作如下:第一、现有的词语语义相关度计算方法大致可以分为传统的语义相关度计算方法和基于网络百科全书的语义相关度计算方法;而传统的方法又可以进一步分为两类:基于语义词典(WordNet、知网)的计算方法和基于语料库的计算方法。本文对这些方法需要用到的语义资源做了详细的介绍,紧接着阐述了每一类中具有代表性的几种语义相关度计算方法,详细分析它们的理论基础和特点。第二、提出了一种核函数与Page Counts相结合的语义相关度计算方法,Page Counts是我们使用搜索引擎进行查询时返回的页面数。这为我们进行语义相关度研究提供了一个新的方向,充分利用高速发展的网络技术,为我们的研究服务。同时,我们还从以下三个方面验证了该方法的有效性:1、分析其理论依据;2、在标准测试集上实验,然后与人工判断的结果做比较;3、特定环境下评估该方法。通过实验验证,本文提出的方法与单独使用核函数或者Page Counts计算语义相关度对比,得到的结果与人工判断的结果更接近,所以本文提出的方法是有效的。第三、本文介绍了语义相关度计算的一个应用——文本聚类,在词语语义相关度计算结果的基础上,对文本的语义相关度进行计算,我们可以提高文本聚类的精度。
其他文献
本文首先简单介绍了《企业会计准则18号-所得税》的内容,其次重点从所得税资产负债表债务法对企业会计核算的影响,递延所得税资产和递延所得税负债的确认及计量原则,对实务中
在世界经济飞速发展的今天,经济全球化、一体化的趋势日益明显。会展活动在现代经济体系中已成为经济活动的重要方式之一,对区域经济发展起到越来越重要的推动作用。会展专业
电气设计者对电气进行设计之时,不但需要考虑到用电负荷逐渐增长的需求,而且要满足供电的安全性以及可靠性要求。通过某种意义上说,建筑电气也对建筑现代化程度有决定作用。
目的评价中药药膳食疗在临床营养治疗中的应用。方法研究基础资料选取2015年9月~2018年6月本院接受营养治疗的80例妊娠恶阻患者,将两组患者按照随机数表法分为例数相同的两组(
<正> “语文教学点拨法”的提出已有近15年的时间了。但也有一些同志,特别是青年教师朋友对“点拨法”还了解不多,比如点拨法是教学方法还是教学思想与原则?点拨法有没有具体
<正>桂花在中国的栽培历史十分悠久,在春秋战国时期的古代文献中就有了桂的记载。西汉时,桂花观赏价值已得到认可,被视为名花异树用于上林苑中。魏晋南北朝时期,随着佛教和道
萨义德对于作为话语的东方主义的批判,深刻揭露了隐藏在西方帝国主义与殖民主义经验事实中的文化殖民策略。现代西方在东方主义话语中建构中国形象,一方面是通过树立"他者"之
当前我国正在推行的结构性减税不能简单地用一个"减"字作为其代名词,而应将其放在完善和优化税制的过程中综合考虑,即还应考虑到结构性减税中的"加法",即结构性增税。增税应
寻租是我国转型时期一种较为严重的社会经济现象,在我国目前的经济文化背景下只能被适度控制而不可能彻底消除。开展会计寻租行为的研究有利于减轻会计信息失真问题,优化资源