论文部分内容阅读
随着互联网的快速发展和网络资源的日益丰富,从海量文本信息中准确返回用户所需内容的需求越发强烈,人们对计算机处理文本信息的能力要求越来越高。作为文本信息处理和自然语言处理的基础研究内容,语义相似度广泛应用于自动问答系统、基于实例的机器翻译、多文档文摘、信息检索等领域。语义相似度的计算结果直接影响文本信息处理的效果,因此提高语义相似度计算的准确性十分必要。词语是构成句子最基本的语义和语法单位。词语相似度的计算是语义相似度最基本的研究内容,提高词语相似度计算效果能够更好的服务于上层应用研究。本文分析比较主流的词语相似度计算方法,对基于How Net的词语相似度展开研究。在How Net的基本结构和树层次模型的基础上,提出一种改进的基于节点概率密度比的词语相似度计算方法。将改进算法进行实验仿真并与最新算法比较,验证本文提出的算法更接近人工评估的结果。句子是表达一个完整语义的基本结构。句子相似度的计算涉及词法、词义、句法、上下文环境等内容,是一个具有挑战性的问题。针对单一特征的句子相似度计算方法在刻画句子相似度上存在片面性的问题,本文对基于How Net多特征的计算方法开展研究。在How Net丰富的语义和独特的知识表达结构的基础上,综合词形特征、词义特征和句法特征,提出一种改进的基于词语权重的多特征句子相似度计算方法。将改进算法进行实验仿真并与原先算法比较,实验结果表明本文提出的算法效果有所提高。