基于多尺度划分的关键词检测算法

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zxc286929269
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,信息的产生速度达到前所未有的水平。如此一来,如何有效的处理海量信息成为一个重要的问题。为了应对海量的信息处理问题,自动文摘、信息检索、文本分类、文本聚类等领域越来越引起学者们的重视。关键词是能够反映文章主题的内容,是对文章的简要概括,能够为上述文本信息处理领域问题的解决提供指导。因而关键词检测作为这些领域的基础性问题现在变得尤为重要。  传统的关键词检测技术主要基于词频方法,且大多需要实时更新的语料库作为先验信息支持。然而当今信息不断增多的时代,想要随时更新海量的数据难度极大。所以,开发出不以先验信息数据为支撑,且性能可靠的关键词检测系统意义重大。  为实现关键词检测的目标,本文采取对文章进行多尺度划分的方法,综合考虑词语在各个粒度下的分布特性,计算词语的主题相关度,从而有效的检测出文本中的关键词。本文的研究内容如下:  第一,本文分析了关键词的分布特性。不同词语在文章中的分布不同,与文章主题无关的词语分布往往较为随机,大多呈现平均分布的特征。由于文章的关键词和文章某一内容有密切的关联,所以往往会集中出现在一些特定的位置,从而形成词语分布密度波动的现象。本文在参考了相关文献的基础上,定义了词语分布波动性概念,为计算词语主题相关度提供了理论基础。  第二,本文提出了基于多尺度划分的关键词检测算法。本文通过实验分析,发现词语在不同尺度下分布特性不同。为了更准确的计算词语的主题相关度,提升关键词检测准确率,本文计算词语在不同尺度下的词语波动性并通过模式识别的方法计算词语的主题相关度。本文在实验分析中对文章《物种起源》进行关键词检测,得到top13准确率100%的性能。  第三,基于前述算法,通过分析词语波动显著区域,进一步提升算法性能。由于关键词反映了文章的某一主题,故而词语出现位置与文章主题分布的一致性可以反映该词语的主题相关度。由于词语在文中出现存在密度波动现象,记录词语波动出现较为显著的位置可以将词语与文章紧密联系起来,本算法基于这个角度进一步发掘词语分布与词语主题相关度之间的关联,修改词语主题相关度。算法改进后,本文通过实验对文章《物种起源》进行关键词检测,性能明显提升,得到top19准确率100%的性能。
其他文献
在我国,国家制定了国家级的系列标准以最大限度地保护信息系统等的安全,其中明确了高安全级别系统采用强制访问控制机制强制访问控制有效地从系统范围约束了进程等主体的活动,给
该论文的目的是对栅格地图的区域进行识别,主要依据地图区域的形状不同来对地图区域进行识别.因此,栅格地图区域识别是模式识别技术在GIS中新的尝试.同时,它也为GIS管理地图
该文以中国地质大学(武汉)科技处SMIS系统的设计与实现为背景,重点讨论了Internet/Intranet环境下基于C/S与B/S混合模式的MIS安全体系以及所采取的相应安全措施.该文在分析C/
该文提出了一种改进的更符合唇形的非对称嘴巴模板,利用了原灰度图像信息、边缘信息和谷值信息来构造能量函数.采用固定改变量的能量下降算法,得到模板对应的最优参数值.对于
随着计算机系统及其网络互联的爆炸性增长,机构和个人对使用这些系统存储信息的依赖性越来越大,因此保护数据和资源免遭泄露、确保数据和消息处于机密状态的要求越来越高.该
空间数据的不确定性是影响空间数据质量的重要因素,大多数空间数据挖掘技术都没有对此加以考虑.该文从不确定性空间对象的表示入手,将对象间的拓扑关系进行概念分层,通过扩展
数学文档因为包含诸多不同形式的数学对象,诸如文本、公式、二维图形等,从而使得其在网络环境下的表示与传输变得十分复杂.目前,许多大学及研究机构都在进行这方面的研究,也
近几年来,Internet/Intranet技术在全球高速发展,基于Internet/Intranet的信息服务已成为当前信息化社会的热点,企业为了保持和加强自身的竞争力,提高内部的管理水平,他们都
在互联网得到广泛应用的同时,信息安全问题也是饱受诟病。这其中,存在着使用TCP/IP协议族安插木马、捆绑程序和植入恶意代码窃取用户本地磁盘文件的行为。这些行为给个人、企业
作为激光打印机的核心部件,打印机控制器对于打印机的输出质量起着重要的作用.随着打印机打印速度不断加快,功能不断增强,对打印机控制器性能的要求也越来越高.该文首先介绍