基于维基百科类别的文本表示方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:xufei777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,网上文档资源的日益增加,面对海量的信息,人们很难迅速准确的找到真正需要的资源。如何对浩如烟海的文献、资料进行自动分类、组织和管理,已经成为一个具有重要用途的课题。文本分类旨在自动对文档进行分类。但是,现在文本分类系统仍然存在很多问题。近年来,国内外许多研究人员对文本分类任务做了深入研究,包括在文本表示、特征选取、权重计算、分类器等方面的探索,本文研究工作紧紧围绕着文本表示这一任务,利用维基百科的类别作为特征来表示文本。在传统的文本表示中,人们把文本表示成一个文本特征向量的形式,文本特征用词来表示,即文本表示采用BOW (Bag of Words)模型。这种方法简单、易行,目前大多数文本分类系统都是使用这种文本特征表示方法。但是,词作为文本特征存在特征空间维数过高、表达能力有限等问题。本文提出了基于维基百科类别体系的文本特征表示方法,该方法将文本中的词映射到维基百科的类别体系中,使用维基类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。但是,仅仅使用现有维基百科条目下的类别信息对文本的覆盖度明显不足。为了解决这个问题,本文提出了基于全局信息自动学习维基类别的方法(本质上是词聚类技术),使文本中维基百科无法覆盖到的词,通过该算法能自动学习到维基百科的类别信息。本文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在特征数量较少时(如:<700),分类的F1值提高了5.14%。基于全局信息自动学习维基类别的方法会把所有的信息聚到少量的维基类别上,因为在自动学习维基类别的过程中,将大量的词映射到了少量的维基类别中,这样做,可以有效的降低文本的空间维数,并且能够有效的保证文本的分类性能不下降。
其他文献
自适应软件在周围环境发生改变的时候,能够利用其自适应逻辑来调整自身的行为,确保既定的任务可以完成。这类软件的开发存在一定的难度,主要表现在以下几个方面:●自适应逻辑
证券投资分析与风险管理系统是在国内证券交易市场日益繁荣,投资者对资产的收益和风险提出科学配置和管理的市场需求下开发的证券分析管理软件.该系以现代投资组合,理论基础.
该文概括论述了KDD的意义及一般过程;介绍了相联规则的问题,论述了发现相联规则的一般过程,以及目前的主要算法的效率及问题.对约束性相联规则的发现做了比较深入的探讨.提出
检测技术的快速发展,出现了许多新的问题有待研究,有很多是传统的方法难以解决的问题。由于检测技术在现代社会的重要性,人们在不断探索研究新的检测技术。 可拓学是一门新学
该文给出了一个新的串匹配算法一ZAO.它利用BM算法中依据d函数来右移模式距离大小的特点,在一定条件下,将模式分解成具有一定性质的两个子串,通过子模式各自的性质及相互间的
随着电子信息技术的飞速发展,部队将是信息化部队,战场将是信息化战场,一切作战活动及其效能都是建立在信息基础之上的。而当前战场普遍使用的移动自组网和无线传感器网络受制于
该文讨论的是一个网上交互应签系统的设计与实现.它是网上训练(WEB BASED TRAINING)的一个特定应用.它采用了TANGO协同工作环境,在TANGO API基础上,运用多媒体技术在INTERNET
该文对计算机技术在审计领域的应用的各个方面作了一个全面的考察,在此基础上提出了一个完整的计算机辅助审计系统的模型.该模型主要包括数据处理-AuditData文档处理-AuditDo
该文主要研究了基于数据手套的中国手语识别的各种算法.研究内容主要包括:1.基本手势的分割算法;2.手语模板训练算法的研究与实现;3.孤立手语词的识别;4.连续手语识别.
随着应用问题规模的扩大和复杂,传统的并发程序设计方法由于存在任务分解的随意性和控制的复杂性等问题,已经不能满足并发应用程序开发的需要.面向对象方法以问题为中心,强调