一种提取类核的快速文本分类方法

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:ahde2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子文本呈指数级的增长,自动文本分类技术得到了越来越多的关注,这种根据文本内容自动将文本分门别类的技术为人们快速有效地组织文本和挖掘有价值的信息提供了有力的帮助。近年来,自动文本分类技术的研究获得了长足的发展,涌现出了许多新的技术和方法,但是,这些技术与方法在大规模的应用背景下仍然存在很多困难,仍然有许多课题值得研究。从研究路线角度来看,文本分类方法大致分为两种:经验主义的方法和理性主义的方法,前者的典型代表是基于机器学习的文本分类,是当今的主流方法,而后者则以基于概念的文本分类为代表。在综合分析二者的优势与不足的基础上,并受人工分类时认知过程的启发,提出了一种提取类核的文本分类方法。该方法是两条路线的有机结合,采用理性主义的方法搭建分类框架,但分类知识采用经验主义的方法由机器自动获取。提取类核的中心思想是:在自然语言中,词语是用来表达概念的,因此如果文本中那些含有类别信息的词语能够被发现,那么通过为每个类别构造具有这种性质的特征集合,即类核,计算机也同样能够根据文本内容,以类核为指导,实现自动的文本分类。本文设计了两种具体的类核提取方法:经验法和圆心法,定义了指标——类别贡献度作为衡量特征入选类核的唯一标准。类别贡献度反映了特征项包含类别信息的多少和对分类贡献程度的大小,类别贡献度的计算充分考虑了特征项在类内、类间的词频分布和文档频率分布。类别贡献度不仅是选择类核特征的依据,而且作为一种分类知识被保留下来,为后续分类提供指导。在类核的基础上设计了一种称之为彩票算法的分类算法,本质上是一种特殊的集合运算。相比于传统的分类模型,提取类核的分类模型更为简洁,在设计的实验系统中,将本文方法与四种常用的特征选择方法和两种经典的分类算法进行了对比,结果表明,本文方法很好的兼顾了分类的精度与速度两项主要指标,分类性能稳定,分类速度上有较大优势。
其他文献
近年来,研究学者们从自然现象中不断获得启示,提出了许多优秀的智能算法,如遗传算法、蚁群算法、模拟退火算法以及粒子群优化算法等等,智能算法有了长足的发展。神经网络用于
移动目标检测与跟踪是计算机视觉学科研究的一个重点课题。在视频监控、安防布控、武器装备等方面都有广泛的应用。经过多年来国内外研究者的共同努力,移动目标检测与跟踪技
目前对话题识别和话题跟踪的研究非常多,但这大都是对新闻事件进行分析。随着Web2.0的发展,人们对于网络的使用方式大大改变,即人的参与性大大增加,所以众多基于Web2.0的应用系统
经络学是研究人体经络的循行、分布、生理、病理变化及与脏腑关系的一种理论,它主要是以腧穴的临床应用为依据,阐述人体各部之间的联系通路即体表之间,内脏之间,以及体表和内
随着Internet技术的迅猛发展,网络环境快速复杂化,各种入侵攻击频繁出现,给网络带来了巨大危害,尤其是基于“跳板”(Stepping Stone)的入侵攻击。攻击者并不直接对目标发动攻
1994年,Peter Shor给出了关于大数质因子分解的多项式时间内可解的量子算法。之后人们又发现了各种各样的快速量子算法,但是由于量子的退相干性,如果不加入量子纠错技术,实现任何
浪潮通信信息系统有限公司是一家专门为信息与通信网络业务提供运营管理和支撑服务的公司。该公司的主要产品是性能管理平台,用于管理通信网络中的对象,并根据这些对象的属性
随着现代脑影像技术的发展,弥散张量成像作为一种描述大脑的新方法,是核磁共振成像(MRI)的特殊形式。人脑作为人体系统构造最复杂部位之一,在人类的信息获取及传导控制都有着关键
碰撞检测不仅是实时计算机图形学的一个重要的研究方向,同时也是计算机辅助设计、计算机动画、虚拟现实等领域的一项关键技术,快速精确的碰撞检测对于提高上述应用的真实感、
本课题通过研究油气储层建模的一般流程,结合自主研发的“储层地质统计分析系统GASOR"的建模算法,搜集、改进和扩充了现有的克里金、多点统计等油气储层建模的算法,并运用设