基于语义分析的文本相似度算法研究

被引量 : 0次 | 上传用户:wozhixiangxiazai1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机信息技术的飞速发展,文本相似度逐渐成为信息处理领域的研究热点。目前基于语义分析的文本相似度算法一般都是利用语义词典对文本中的词汇进行分析,并没有考查词汇对文本主旨表达所做的贡献值,因此计算准确率较低。针对这个缺陷,本文提出了一种基于语义分析的文本相似度计算方法,该方法通过考查词汇语义权值对文本进行特征提取,并通过特征的语义权值来计算文本相似度。本文首先研究了文本内部词汇的分布规律和词汇之间的关系,提出了一种基于语义分析和语义关系网络的文本特征提取算法。针对目前算法没有考查词汇对文本主旨表达所做贡献值的不足,该算法利用词汇语义相似度将文本抽象表示为一个语义关系网络,通过对网络中节点的重要性评估得到相应词汇的语义权值,并根据语义权值的排序结果提取文本特征,实验证明该算法提取的特征能够很好的代表文本主旨。本文接着研究了两个文本特征集合之间的关系,提出了一种基于语义分析和二分图最优匹配的文本相似度算法。为了提高文本相似度计算的准确性,该算法考查了特征词汇在文本中的语义权值。该算法将两个文本特征集合表示为二分图的两个部分,其中每个部分中的节点为相应特征集合中的词汇,并通过特征词汇的语义权值和词汇间的语义相似度得到二分图中边的权值,继而利用二分图最优匹配算法得到最优匹配,最终根据匹配结果计算两个文本的相似度,实验证明该算法在一定程度上提高了文本相似度计算的正确性。在上述研究的基础之上,本文对所提出的两个算法分别进行了实验验证。实验使用了大量文本作为数据集,并将实验结果与现有方法进行了对比。实验结果表明,本文算法在文本特征提取和文本相似度计算的准确率上均有较高的提升。最后结合所提方法的不足之处,对本文进行了总结,并指出了文本相似度计算尚需研究和改进的地方。
其他文献
汪曾祺是中国当代著名的散文家。他的散文平和冲淡,清新自然,内在流动着中国传统的“中和”之美的韵味。散文是作家心灵的音乐,人格的图画,灵魂的真实的书写。汪曾祺散文流动的“
学前教育是基础教育的基础,是终身教育的开端,是国民教育的重要组成部分。优质的学前教育对于促进个体在早期的全面健康发展、巩固和提高九年义务教育质量与效益、全面提升国民
1980年出版的《The Spiral of Silence:Public Opinion-Our Social Skin》一书中探讨了音乐传播中所谓的“沉默螺旋”这样一个极具争议的概念。直到今天,这个理论依然在影响
近些年来,学前教育发展备受社会各界关注,有关幼儿园教师文化的研究也日益受到国内外教育学者的普遍关注。幼儿园教师文化不仅影响幼儿教师个体以及群体自身的专业化发展,还深刻
<正> 1 健康维持组织 美国独特的健康维持组织对美英两国的卫生改革影响很大。这种组织可以说是健康保险机构和医疗服务提供机构相结合的形态,健康维持组织在二战后的美国产
农业上市公司作为现阶段我国先进农业生产力的代表,如何健康成长是证券市场的一个重要问题,也是关系到农业甚至整个国民经济协调、可持续发展的重要问题。目前,我国农业上市
本课在全面把握诗歌内容的基础上,以"如裂帛"为切入点,引导学生通过揣摩诗歌典型语言现象来体会人物丰富的内心世界。课上运用图示法,力求直观呈现音乐的节奏以及诗句中潜藏
为改变过去的原有教育机制,我国大力推行学生的全面素质教育,高校教育对于素质教育的全面实施具有重要的意义,因此在合理组织原有教学模式的基础上,大胆创新,改革高校的体育课程安
概括了深空探测的重要意义。根据金星在太阳系中的特殊地位、金星探测的科学意义及对技术创新的意义,以及金星是早期深空探测的重点,认为金星是深空探测的重要目标之一。分析