论文部分内容阅读
随着电子文本呈指数级的增长,自动文本分类技术得到了越来越多的关注,这种根据文本内容自动将文本分门别类的技术为人们快速有效地组织文本和挖掘有价值的信息提供了有力的帮助。近年来,自动文本分类技术的研究获得了长足的发展,涌现出了许多新的技术和方法,但是,这些技术与方法在大规模的应用背景下仍然存在很多困难,仍然有许多课题值得研究。从研究路线角度来看,文本分类方法大致分为两种:经验主义的方法和理性主义的方法,前者的典型代表是基于机器学习的文本分类,是当今的主流方法,而后者则以基于概念的文本分类为代表。在综合分析二者的优势与不足的基础上,并受人工分类时认知过程的启发,提出了一种提取类核的文本分类方法。该方法是两条路线的有机结合,采用理性主义的方法搭建分类框架,但分类知识采用经验主义的方法由机器自动获取。提取类核的中心思想是:在自然语言中,词语是用来表达概念的,因此如果文本中那些含有类别信息的词语能够被发现,那么通过为每个类别构造具有这种性质的特征集合,即类核,计算机也同样能够根据文本内容,以类核为指导,实现自动的文本分类。本文设计了两种具体的类核提取方法:经验法和圆心法,定义了指标——类别贡献度作为衡量特征入选类核的唯一标准。类别贡献度反映了特征项包含类别信息的多少和对分类贡献程度的大小,类别贡献度的计算充分考虑了特征项在类内、类间的词频分布和文档频率分布。类别贡献度不仅是选择类核特征的依据,而且作为一种分类知识被保留下来,为后续分类提供指导。在类核的基础上设计了一种称之为彩票算法的分类算法,本质上是一种特殊的集合运算。相比于传统的分类模型,提取类核的分类模型更为简洁,在设计的实验系统中,将本文方法与四种常用的特征选择方法和两种经典的分类算法进行了对比,结果表明,本文方法很好的兼顾了分类的精度与速度两项主要指标,分类性能稳定,分类速度上有较大优势。