改进TFIDF和谱分割的关键词自动抽取方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:liuganghy2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词是指文档中具有专指性且能够反映文档主题的词语或短语。采用自动化技术从文档中抽取出关键词的过程称为关键词自动抽取。关键词自动抽取是文本自动处理中分类、检索和文摘等工作的基础与关键技术之一。按照理论依据不同,关键词抽取的方法可以分为:统计分析、语言分析和人工智能等方法。关键词抽取的统计分析方法根据统计信息计算词语或短语的权重,从中抽取权重大的若干词语或短语为关键词。TFIDF(Term Frequency&Inverse Documentation Frequency)算法是一种应用较广的权重计算统计分析方法。该算法选用词语或短语的频率TF与反文档频率IDF的乘积来表示特征项的权值。完全基于词频的传统TFIDF算法可能出现两类现象:有些不能代表文档主题的低频词IDF值却很高;有些能够很好地代表文档主题的高频词IDF值却很低。本文综合考虑词语或短语的词频、词性、词长以及在文档中出现的位置,设计了一种改进的TFIDF算法。词语同现频率是关键词抽取统计分析方法中的一个重要的信息。单纯地利用候选关键词的同现频率加权计算候选关键词的权重,进行关键词的抽取,效果不佳。为了进一步提高关键词抽取的准确性,本文将基于图像分类的谱分割方法应用于关键词抽取,设计了基于谱分割的关键词抽取方法。其主要思路是首先对文本中的候选关键词基于词语同现频率建立相似图,使用谱分割方法对图中候选关键词进行分类,统计候选关键词所在分类的词语总数,根据候选关键词的改进TFIDF值和候选关键词所在类的词语总数计算候选关键词的权重,排序后权重值较大的若干候选关键词即为抽取的关键词。论文选用“中国论文下载中心”(http://www.studa.net/)的民法、科技和经济三类的论文各100篇作为实验的数据集。分别用基于传统的TFIDF方法、基于改进的TFIDF方法和基于谱分割方法抽取关键词。实验结果表明改进的TFIDF方法关键词抽取的准确率、召回率和F1值明显高于传统的TFIDF方法。基于谱分割的方法是三者中关键词抽取效果最好的。
其他文献
伴随着互联网的快速发展与互联网技术的不断创新,社交网络日益成熟和完善。在众多的社交网络类型中,有一种以活动为媒介将线上与线下相结合的社交网络——活动社交网络(Event
内存交换技术几乎应用于所有的计算机系统,交换操作中频繁的外存访问是制约程序运行性能的一个重要因素。近年来,随着新型存储介质闪存的快速发展,越来越多的研究关注于使用闪存
视频跟踪是计算机视觉领域的一个重要研究方向,它融合了模式识别、图像处理、图像表征和计算机应用等相关领域的研究成果和先进技术,在智能监控、交通管制、人工交互、军事精
伴随当前三维快速原型技术的飞速发展及商业化,大量数字模型通过三维打印等技术完成实体化并被投入商业应用中,从而也带来了模型管理以及版权保护的需求。传统水印算法面向数字
近年来,数据密集型计算越来越得到相关学者的关注。数据密集型计算环境下的数据具有海量、高速变化、分布、异构、半结构化或非结构化的特点,传统的数据挖掘算法已经不能满足
当用户面对经过本体标注过的大量实例时,如何快速的挖掘出对用户有用的信息仍是研究人员迫切需要解决的问题。聚类作为一种无监督的分类方法是对大量实例数据处理的重要手段,但
随着科技的进步和社会的发展,机器人技术成为当今世界备受关注的前沿课题。与此同时,随着人类在非规整复杂地形的各种活动增多,以及对具有潜在危险区域或者人员无法进入区域
随着对算法运算速度要求的提高,一些用软件实现的算法已满足不了实时性的要求。因此,充分利用硬件电路的并行性和快速运行的特点,实现算法硬化,成为算法研究的一个新方面。本文工
随着互联网的迅猛发展,信息正在以指数形式飞速增长。通过互联网人们可以轻而易举地获取大量的信息,从而对自己的行为起着非常重要的指引作用。短文本是互联网中一种非常重要
随着二维条码技术的不断发展,不同于传统“图形”二维条码,出现了一种“文本”形式的新型字符二维条码。本文在对传统二维条码编码技术进行研究的基础上,对字符二维条码的编