论文部分内容阅读
随着信息技术的飞速发展,信息的产生速度达到前所未有的水平。如此一来,如何有效的处理海量信息成为一个重要的问题。为了应对海量的信息处理问题,自动文摘、信息检索、文本分类、文本聚类等领域越来越引起学者们的重视。关键词是能够反映文章主题的内容,是对文章的简要概括,能够为上述文本信息处理领域问题的解决提供指导。因而关键词检测作为这些领域的基础性问题现在变得尤为重要。 传统的关键词检测技术主要基于词频方法,且大多需要实时更新的语料库作为先验信息支持。然而当今信息不断增多的时代,想要随时更新海量的数据难度极大。所以,开发出不以先验信息数据为支撑,且性能可靠的关键词检测系统意义重大。 为实现关键词检测的目标,本文采取对文章进行多尺度划分的方法,综合考虑词语在各个粒度下的分布特性,计算词语的主题相关度,从而有效的检测出文本中的关键词。本文的研究内容如下: 第一,本文分析了关键词的分布特性。不同词语在文章中的分布不同,与文章主题无关的词语分布往往较为随机,大多呈现平均分布的特征。由于文章的关键词和文章某一内容有密切的关联,所以往往会集中出现在一些特定的位置,从而形成词语分布密度波动的现象。本文在参考了相关文献的基础上,定义了词语分布波动性概念,为计算词语主题相关度提供了理论基础。 第二,本文提出了基于多尺度划分的关键词检测算法。本文通过实验分析,发现词语在不同尺度下分布特性不同。为了更准确的计算词语的主题相关度,提升关键词检测准确率,本文计算词语在不同尺度下的词语波动性并通过模式识别的方法计算词语的主题相关度。本文在实验分析中对文章《物种起源》进行关键词检测,得到top13准确率100%的性能。 第三,基于前述算法,通过分析词语波动显著区域,进一步提升算法性能。由于关键词反映了文章的某一主题,故而词语出现位置与文章主题分布的一致性可以反映该词语的主题相关度。由于词语在文中出现存在密度波动现象,记录词语波动出现较为显著的位置可以将词语与文章紧密联系起来,本算法基于这个角度进一步发掘词语分布与词语主题相关度之间的关联,修改词语主题相关度。算法改进后,本文通过实验对文章《物种起源》进行关键词检测,性能明显提升,得到top19准确率100%的性能。