论文部分内容阅读
传统的文本分类算法在进行大规模数据的学习时效率低下,甚至无效。增量学习能使学习算法的时间和空间资源消耗保持在可以管理和控制的水平,具有较高的实用价值。现有的增量学习算法主要是基于支持向量机算法和集成学习策略,训练复杂度较高。而且这些算法大多进行样本增量学习,没有充分考虑到新增样本中引入的新特征和新类别,也就是假定增量学习的学习环境并不是完全开放的。本文主要就完全开放环境下文本分类增量学习的相关问题进行研究。我们的工作主要从以下三方面展开:
(1)基于推拉策略的文本分类增量学习算法TILDP。目前,增量学习尚没有形成一个统一的定义。因此,本文首先给出了增量学习的定义。在深入探讨了增量学习中的几个常见问题之后,本文就如何设计一个能支持类别增量学习、样本增量学习和特征增量学习的算法给出了一个算法框架ILAF。将ILAF实例化,基于推拉策略的中心法DP和信息增益特征选择算法,本文提出了一个增量学习算法TILDP。实验结果表明,TILDP训练速度远高于DP,分类精度接近DP和LIBSVM,并且易于实现。
(2)一种高效的增量特征选择算法UFS。为了进一步提高增量学习的效率,本文提出了一个基于分类器模型的高效准确的增量特征选择算法UFS。实验结果表明,UFS算法特征选择效率远高于信息增益,准确性接近信息增益,并且易于实现。
(3)实用垃圾邮件过滤系统CleanSpam。本文基于TILDP增量学习算法提出了一个三层垃圾邮件过滤系统CleanSpam。实验结果表明,使用反馈信息进行增量学习对于降低误判率和错误率都有很重要的作用;对于垃圾邮件过滤任务,TILDP算法优于邮件过滤中的经典算法朴素贝叶斯。