基于推拉策略的文本分类增量学习研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:yiyong6698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本分类算法在进行大规模数据的学习时效率低下,甚至无效。增量学习能使学习算法的时间和空间资源消耗保持在可以管理和控制的水平,具有较高的实用价值。现有的增量学习算法主要是基于支持向量机算法和集成学习策略,训练复杂度较高。而且这些算法大多进行样本增量学习,没有充分考虑到新增样本中引入的新特征和新类别,也就是假定增量学习的学习环境并不是完全开放的。本文主要就完全开放环境下文本分类增量学习的相关问题进行研究。我们的工作主要从以下三方面展开:   (1)基于推拉策略的文本分类增量学习算法TILDP。目前,增量学习尚没有形成一个统一的定义。因此,本文首先给出了增量学习的定义。在深入探讨了增量学习中的几个常见问题之后,本文就如何设计一个能支持类别增量学习、样本增量学习和特征增量学习的算法给出了一个算法框架ILAF。将ILAF实例化,基于推拉策略的中心法DP和信息增益特征选择算法,本文提出了一个增量学习算法TILDP。实验结果表明,TILDP训练速度远高于DP,分类精度接近DP和LIBSVM,并且易于实现。   (2)一种高效的增量特征选择算法UFS。为了进一步提高增量学习的效率,本文提出了一个基于分类器模型的高效准确的增量特征选择算法UFS。实验结果表明,UFS算法特征选择效率远高于信息增益,准确性接近信息增益,并且易于实现。   (3)实用垃圾邮件过滤系统CleanSpam。本文基于TILDP增量学习算法提出了一个三层垃圾邮件过滤系统CleanSpam。实验结果表明,使用反馈信息进行增量学习对于降低误判率和错误率都有很重要的作用;对于垃圾邮件过滤任务,TILDP算法优于邮件过滤中的经典算法朴素贝叶斯。
其他文献
本文研究了计算复杂性中的几种归约方法,应用它们刻画了一些计数问题的计算复杂性,或者给出了多项式时间算法,或者证明其是#P完全的;研究了匹配线路和匹配门的性质。   多项式
随着Internet规模的扩大和网络应用的普及,网络安全问题日益突出。为了实现对敏感数据的保护,同时打破企业内部网的职能范围在物理位置上的限制,虚拟专用网(Virtual Private Net
中国的海岸线长度超过18000公里,频繁的遭受暴雨、雷暴等强对流天气的侵袭。这些自然灾害往往给社会和经济带来巨大的损失。中尺度对流系统(Mesoscale Convective System,MCS)
随着集群技术和网络技术的飞速发展,网络存储系统成为解决集群I/O性能瓶颈的主要手段之一。集群文件系统作为网络存储系统的核心技术,很好地解决了传统文件系统中存在的性能、
机群系统凭借其良好的易构建性和可扩展性,无论是在高性能科学计算领域,还是在商业计算领域,都得到了广泛的应用。但是随着机群系统硬件规模的不断扩大以及应用的复杂化,系统出现
在计算机技术发展过程中,模拟一直是一个十分重要的研究方法。模拟器是运行在一个平台上的特殊程序,它可以模拟另外一个平台所具有的特征,前者称为宿主机,后者称为目标机。模拟器
近几年来,多模移动终端得到了越来越广泛的应用。目前的研究热点是使多模终端能够同时接入多个网络,利用多种无线资源相互配合进行业务流传输。在这种通信模式下,当原有接入网络
链接预测是属性网络中常见的一类任务,即预测两个节点之间的边存在的可能性,核心在于构建有效的链接表示。传统的方法往往依靠费时费力的特征工程,但是近年来,表示学习和深度学习
在今天的开放计算环境和数据中心中,计算机系统需要根据提供服务类型的不同而划分成多个子系统进行管理和维护,各个子系统之间相互孤立,很难实现资源的共享,面对不断变化的服务需
随着用户数据重要性的增加,基于周期性备份的数据解决方案已不能满足用户数据保护的需要。连续数据保护技术(CDP)成为近年来数据保护领域的一大研究热点,它有效解决了周期性备