短文本语义相似度计算的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:q2101369
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘中的语义相似度问题一直受到学术界和工业界的高度关注,它在信息检索、自动问答、文本分类、自然语言处理、机器学习等领域一直是研究的热点。短文本语义相似度计算,就是计算两个短文本之间语义相似的程度。目前,针对该问题,许多研究者提出了多种类型的相似度量特征,主要包括基于词共现相似度量,基于语法结构上的相似度量和基于语义的特征度量。其中基于词共现的方法在短文本上表现效果不佳,因为受限于短文本的长度,词共现方法常出现语义飘离。基于语法结构上的方法,通过句法解析,赋予不同的句子成分一定的权重,进而提取文本的语法信息。基于语义的特征度量,利用背景知识来学习词的语义信息,很适合解决同义词相似度计算问题,然而在非同义词和不同句子成分的词上缺少一致的表达框架。本文根据以上问题并考虑短文本的特点,通过构造多个层次的特征,提出了多层次特征融合模型,从文本中获得更完整的信息,从而提高短文本语义相似度计算的准确性。首先,该模型从文本的多个层面出发,融合了6大类不同文本相似度量特征。这些特征包括词汇特征、基于词嵌入的特征、语法特征、句法特征、多样化组合特征及其他特征等。然后,在这些多样特征上进行维度规约,减少文本的冗余特征和噪声。再次,研究并利用集成学习模型Boosting算法,提高模型的泛化能力,训练多分类模型。最后,本文通过与己有方法进行比较,验证本文提出的多层次特征融合模型的有效性和短文本语义相似度计算效果。实验结果表明,本文提出的针对短文本的多层次特征融合模型能够有效的提升语义相似度计算的准确率。
其他文献
<正>1921年,瑞典地质学家安特生和中国学者袁复礼等在河南省渑池县仰韶遗址进行的考古发掘,揭开了仰韶文化发掘与研究的序幕。为纪念仰韶遗址发掘90周年,2011年11月6~8日,"仰
目的观察便通片治疗女性便秘的临床效果。方法收集该院自2017年1—11月收治的女性便秘患者130例作为观察对象,按数字奇偶法分为观察组与对照组,每组65例。对照组给予常规西药
在高职教学中,计算机是一门非常重要的课程。只有让学生掌握、熟悉计算机网络的基本概念、原理、方法等,才能使学生将计算机知识运用到电子商务、电子政务、金融、远程测控、
本文介绍了典型农药类持久性有机污染物的定义、来源、特性,分析了农药类持久性有机污染物在黑龙江省水环境中的污染情况,阐述了农药类持久性有机污染物处理方法,为我省农村