论文部分内容阅读
文本挖掘中的语义相似度问题一直受到学术界和工业界的高度关注,它在信息检索、自动问答、文本分类、自然语言处理、机器学习等领域一直是研究的热点。短文本语义相似度计算,就是计算两个短文本之间语义相似的程度。目前,针对该问题,许多研究者提出了多种类型的相似度量特征,主要包括基于词共现相似度量,基于语法结构上的相似度量和基于语义的特征度量。其中基于词共现的方法在短文本上表现效果不佳,因为受限于短文本的长度,词共现方法常出现语义飘离。基于语法结构上的方法,通过句法解析,赋予不同的句子成分一定的权重,进而提取文本的语法信息。基于语义的特征度量,利用背景知识来学习词的语义信息,很适合解决同义词相似度计算问题,然而在非同义词和不同句子成分的词上缺少一致的表达框架。本文根据以上问题并考虑短文本的特点,通过构造多个层次的特征,提出了多层次特征融合模型,从文本中获得更完整的信息,从而提高短文本语义相似度计算的准确性。首先,该模型从文本的多个层面出发,融合了6大类不同文本相似度量特征。这些特征包括词汇特征、基于词嵌入的特征、语法特征、句法特征、多样化组合特征及其他特征等。然后,在这些多样特征上进行维度规约,减少文本的冗余特征和噪声。再次,研究并利用集成学习模型Boosting算法,提高模型的泛化能力,训练多分类模型。最后,本文通过与己有方法进行比较,验证本文提出的多层次特征融合模型的有效性和短文本语义相似度计算效果。实验结果表明,本文提出的针对短文本的多层次特征融合模型能够有效的提升语义相似度计算的准确率。