基于大规模数据的非平行超平面支持向量机算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:IceMilo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网、云计算、移动互联网的迅猛发展,大数据吸引了越来越多的关注,正成为信息社会的重要财富,同时也给数据的处理和管理带来了巨大的挑战。由于大数据存在海量、复杂、多变等特性,传统的数据挖掘算法很多已不再适用。因此,研究大数据环境下的数据挖掘算法成为广泛关注的话题。  支持向量机(SVM),是近十年来数据挖掘、机器学习领域国际上的重要研究方向和热点。它是一种通用的分类和回归方法,已被广泛地应用到诸多领域,包括文本分类、生物信息、语音识别、图像分析、时间序列预测、网络入侵检测、信用风险分析、保险欺诈分析等等。在支持向量机的基础上发展了很多高效的二分类算法,如双子支持向量机(TWSVM)、限定支持向量机(TBSVM)等。这类算法构造了两条分划超平面,虽然这些算法能够处理一些特殊的数据集,且比标准支持向量机在计算速度上快四倍,但这类算法在计算过程中需要计算很大的逆矩阵,在数据量很大的情况下变的无法求解。此外,对于非线性问题,这些算法需要将线性模型转化为另外的模型,而非直接引入核函数,失去了标准支持向量机的优势。为了克服这类算法的缺陷,非平行超平面支持向量机(NPSVM)应运而生。非平行超平面支持向量机不仅继承了支持向量机和双子支持向量机的优势,而且对两种算法进行了进一步的改进。但当数据集很大的情况下,非平行超平面支持向量机在计算速度上仍很难得到提升。  本文基于大规模数据,采用分而治之的策略,提出了分而治之的非平行超平面支持向量机(DC-NPSVM),解决了非平行超平面支持向量机(NPSVM)处理大规模数据的问题。该算法将大规模数据集分成了若干个小数据集,对每一个数据集采用非平行超平面支持向量机进行求解,将每个小数据集得到的解合并,作为原始问题的初始点迭代点,再利用非平行超平面支持向量机对整个数据集进行求解,可以快速的得到精确解,从而得到分划超平面。由于初始点很接近真实解,所以经过几次迭代就可以得到整个问题的最优解。本文还进一步证明了通过这种分而治之的方法对每个小数据集进行求解并合并作为初始迭代点,该初始点很接近最优解,得到的目标函数值与真实的目标函数值之差的范数存在一个上界,以及得到的支持向量与真实的支持向量也很接近,所以该算法十分有效。大量的实验同样证明了该算法的有效性。  由于分而治之的非平行超平面支持向量机中需要调节的参数较多,本文利用v-非平行超平面支持向量机(v-NPSVM)的优势,进一步的提出了分而治之的v-非平行超平面支持向量机(DC-vNPSVM)来解决大规模数据的二分类问题。该算法虽然同样采取分而治之的策略,但该算法对于分类问题具有更高的分类准确率,这是因为该算法所涉及的参数较少,且参数的取值范围很小,只需比较少的时间训练模型。该算法在测试阶段采用了“early prediction”的策略,用比较少的时间就可以得到比较高的分类准确率。本文同样从理论和数值实验两方面证明了该算法的有效性。  大部分处理大规模数据的算法考虑的是如何降低训练模型的时间,但是测试花费的时间同样需要考虑。本文基于哈希技术,提出了哈希非平行超平面支持向量机(HNPSVM)来降低大规模数据在分类预测时的预测时间。该算法采用近似预测的方法,在不折损预测准确率的同时大幅度降低预测时间。此外,本文给出定理证明了当模型中的一个参数趋于正无穷时,哈希非平行超平面支持向量机的预测准确率趋于真实的预测准确率。大量的数值实验验证了该算法的有效性。  本文在处理大规模数据的基础上,还揭示了非平行超平面支持向量机的本质,提出了更高效的算法,基于一个优化问题的非平行超平面支持向量机(NSVMOOP),该算法能够用一个优化问题求解两条非平行的超平面,且具有更好的泛化性。此外,本文给出了改进的序列最小最优化算法(SMO)对该算法进行快速求解。大量实验验证了该算法的有效性。
其他文献
该文研究了二维非定常多群中子输运方程的一种数值解法.该方法对相空间采用离散纵标法(SN),时间和空间域采用自适应样条小波ADI(SW-ADI)方法,从而提出一种新算法——SW-ADI-S
该文考虑一端固定,一端在van der Pol自激励边界反馈下Euler-Bernoulli梁的动力行为.一维梁振动方程y+y=0,在左边界x=0满足y(0)=0,y(0)=0,在右边界x=1满足y(1)=0,y(1)=-ay+β
众所周知,泛函极值问题是科学技术中,特别是经济、力学、最优化理论、控制论等研究中会经常遇到的重要问题[16,18,19]。此类问题一般采用变分方法解决。  而对于约束极值问题,人
Petri网是一种数学和图形工具,适宜于模拟和分析离散事件系统.自Petri先生开创性的工作之后,网论得到了长足进展,至今已形成了相当规模的研究领域,并产生出多种不同类别.在这
在二十多年的英语教学中,笔者通过自己的实践,总结了以下几点经验:rn一、学习英语,兴趣是关键rn兴趣是获得成功的关键.在英语教学中,提高课堂效率,培养学生能力的关键就是激
期刊
股票价格模型的建立和分析,是金融数学中一个非常重要的课题。传统的股价模型通常假设股票价格遵循马尔科夫过程,这表示股价未来的变化仅与股票当前价格有关,与过去的股价无关,即
该文基于RBAC模型在Web环境中研究并成功地实现了一个对Intranet网络资源进行安全管理的系统平台Webdaemon,并在实际运行中取得安全,稳定的运行效果.该文的主要工作包括以下
和谐的班集体应该是人人自律、互律、互助、共赢的集体。班级管理工作要营造积极向上的班级信仰,实现综合班力的全面提升。寻求合理有效的班级管理策略,运用先进的管理理念,
在常微分方程理论中,一个既基本而又重要的研究领域就是研究在方程的某给定解附近其它解的性态.为此就发展起了李雅普诺夫(Liapunov)稳定性理论,解轨道稳定性理论以及系统的
本文是在研究了SOFM算法的基础上,对该算法进行改进,得到自组织神经网络树——SONT结构,结合地震勘探中的油气检测问题,实现了对油气识别的具体算法。 论文首先介绍了SOFM的基