论文部分内容阅读
随着计算机信息技术的飞速发展,文本相似度逐渐成为信息处理领域的研究热点。目前基于语义分析的文本相似度算法一般都是利用语义词典对文本中的词汇进行分析,并没有考查词汇对文本主旨表达所做的贡献值,因此计算准确率较低。针对这个缺陷,本文提出了一种基于语义分析的文本相似度计算方法,该方法通过考查词汇语义权值对文本进行特征提取,并通过特征的语义权值来计算文本相似度。本文首先研究了文本内部词汇的分布规律和词汇之间的关系,提出了一种基于语义分析和语义关系网络的文本特征提取算法。针对目前算法没有考查词汇对文本主旨表达所做贡献值的不足,该算法利用词汇语义相似度将文本抽象表示为一个语义关系网络,通过对网络中节点的重要性评估得到相应词汇的语义权值,并根据语义权值的排序结果提取文本特征,实验证明该算法提取的特征能够很好的代表文本主旨。本文接着研究了两个文本特征集合之间的关系,提出了一种基于语义分析和二分图最优匹配的文本相似度算法。为了提高文本相似度计算的准确性,该算法考查了特征词汇在文本中的语义权值。该算法将两个文本特征集合表示为二分图的两个部分,其中每个部分中的节点为相应特征集合中的词汇,并通过特征词汇的语义权值和词汇间的语义相似度得到二分图中边的权值,继而利用二分图最优匹配算法得到最优匹配,最终根据匹配结果计算两个文本的相似度,实验证明该算法在一定程度上提高了文本相似度计算的正确性。在上述研究的基础之上,本文对所提出的两个算法分别进行了实验验证。实验使用了大量文本作为数据集,并将实验结果与现有方法进行了对比。实验结果表明,本文算法在文本特征提取和文本相似度计算的准确率上均有较高的提升。最后结合所提方法的不足之处,对本文进行了总结,并指出了文本相似度计算尚需研究和改进的地方。