论文部分内容阅读
关键词是指文档中具有专指性且能够反映文档主题的词语或短语。采用自动化技术从文档中抽取出关键词的过程称为关键词自动抽取。关键词自动抽取是文本自动处理中分类、检索和文摘等工作的基础与关键技术之一。按照理论依据不同,关键词抽取的方法可以分为:统计分析、语言分析和人工智能等方法。关键词抽取的统计分析方法根据统计信息计算词语或短语的权重,从中抽取权重大的若干词语或短语为关键词。TFIDF(Term Frequency&Inverse Documentation Frequency)算法是一种应用较广的权重计算统计分析方法。该算法选用词语或短语的频率TF与反文档频率IDF的乘积来表示特征项的权值。完全基于词频的传统TFIDF算法可能出现两类现象:有些不能代表文档主题的低频词IDF值却很高;有些能够很好地代表文档主题的高频词IDF值却很低。本文综合考虑词语或短语的词频、词性、词长以及在文档中出现的位置,设计了一种改进的TFIDF算法。词语同现频率是关键词抽取统计分析方法中的一个重要的信息。单纯地利用候选关键词的同现频率加权计算候选关键词的权重,进行关键词的抽取,效果不佳。为了进一步提高关键词抽取的准确性,本文将基于图像分类的谱分割方法应用于关键词抽取,设计了基于谱分割的关键词抽取方法。其主要思路是首先对文本中的候选关键词基于词语同现频率建立相似图,使用谱分割方法对图中候选关键词进行分类,统计候选关键词所在分类的词语总数,根据候选关键词的改进TFIDF值和候选关键词所在类的词语总数计算候选关键词的权重,排序后权重值较大的若干候选关键词即为抽取的关键词。论文选用“中国论文下载中心”(http://www.studa.net/)的民法、科技和经济三类的论文各100篇作为实验的数据集。分别用基于传统的TFIDF方法、基于改进的TFIDF方法和基于谱分割方法抽取关键词。实验结果表明改进的TFIDF方法关键词抽取的准确率、召回率和F1值明显高于传统的TFIDF方法。基于谱分割的方法是三者中关键词抽取效果最好的。