基于关键短语的自动主题词标引研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:hqxx03447
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术尤其是网络的迅速发展,产生了大量的信息,用传统的手工标引方法费时费力且主观性较强,已不能满足需求,这时就迫切的需要对大量信息进行自动标引。在检索系统中,标引处于承上启下的地位。标引是给出能反映文献特征的表示过程,是所有文件自动处理的基础与核心技术。  本文通过对短语提取、短语过滤、短语权重计算、短语相似度计算、主题词提取等方面的研究,提出了基于关键短语的自动主题词标引方法。首先,利用哈希结构统计短语、利用规则过滤垃圾串,提取出比较合理的短语;其次,综合考虑短语的位置信息、长度信息、词性信息、短语频率信息,提出短语权重计算改进方法,并通过实验验证这种权重计算方法的有效性:然后,再根据短语的语义信息、短语长度信息、短语文字重复度、词性信息,提出一种多特征融合的方法计算短语的相似度,并通过实验验证了该方法的有效性;最后,分析识别短语的等同关系、等级关系和相关关系构建主题词表。  本文在以上几点研究的基础之上,总结出了基于关键短语的自动主题词标引的全过程,并对自动标引未来进行了展望。
其他文献
空间数据库的研究始于20世纪70年代的地图制图与遥感图像处理领域,其目的是为了有效地利用卫星遥感资源迅速绘制出各种专题地图。随着地理信息系统、计算机辅助设计与制造、机
森林火灾是林业灾害中对社会、经济及环境发展影响范围最广和破坏性最大的一种自然灾害。森林火灾是一个极其复杂的自然现象,受众多自然因素和社会因素的影响,包括可燃物类型
迄今为止,研究者虽然对图像分类问题进行了大量研究,也取得了一些研究成果,但多数研究工作是基于开放领域的,类别粒度较粗,难以很好地满足特定应用场景下的精细分类需求。相对于传
人类发展的历史,就是解决问题的历史。计算机的出现,加快了人类解决问题的速度,也带来了与之相对应的问题。在一些反复出现的问题上,人们试图找出最优的解决方案,以期可以达
在科技飞速发展、信息高度膨胀的今天,互联网已经成为推动生产力发展最重要的工具。而且,人们获取自己所需的知识和信息的方式也正逐渐发生变化,从以往的在图书馆翻阅书籍,向网络
软件系统的正确性一直是人们所关心的问题,人们使用各种方法来验证一个软件系统的正确性,目前已经有越来越多的人使用模型检测技术来对软件系统进行验证,也就是通常我们所说
金融系统安全关系到国家稳定与行业健康发展,然而金融系统风险分析由于信息缺失或意图行为不确定而面临重要挑战。现有的以计算为主的数据分析技术无法分析出被观察对象存在的
随着网络技术的发展,软件运行平台逐步由传统的单机、封闭、静态的运行环境转变为开放、动态、多变的网络运行环境。由此产生了一个新的研究领域:网构软件。与传统软件相比,主体
随着互联网使用范围的不断扩大,互联网与生活的结合越来越密切,社会信息化的浪潮正在席卷全球。中国拥有世界上最多的网民,并且每年仍在以极高的速度增加。面对迅猛发展的网络通
近年来,为了提高同类软件产品的生产速度与产品质量,提高软件构件的可重用性,软件产品线方法被广泛应用于软件工程领域。软件产品线先驱者们设计并实践了多种产品线方法,包括COPA