论文部分内容阅读
随着物联网、云计算、移动互联网的迅猛发展,大数据吸引了越来越多的关注,正成为信息社会的重要财富,同时也给数据的处理和管理带来了巨大的挑战。由于大数据存在海量、复杂、多变等特性,传统的数据挖掘算法很多已不再适用。因此,研究大数据环境下的数据挖掘算法成为广泛关注的话题。 支持向量机(SVM),是近十年来数据挖掘、机器学习领域国际上的重要研究方向和热点。它是一种通用的分类和回归方法,已被广泛地应用到诸多领域,包括文本分类、生物信息、语音识别、图像分析、时间序列预测、网络入侵检测、信用风险分析、保险欺诈分析等等。在支持向量机的基础上发展了很多高效的二分类算法,如双子支持向量机(TWSVM)、限定支持向量机(TBSVM)等。这类算法构造了两条分划超平面,虽然这些算法能够处理一些特殊的数据集,且比标准支持向量机在计算速度上快四倍,但这类算法在计算过程中需要计算很大的逆矩阵,在数据量很大的情况下变的无法求解。此外,对于非线性问题,这些算法需要将线性模型转化为另外的模型,而非直接引入核函数,失去了标准支持向量机的优势。为了克服这类算法的缺陷,非平行超平面支持向量机(NPSVM)应运而生。非平行超平面支持向量机不仅继承了支持向量机和双子支持向量机的优势,而且对两种算法进行了进一步的改进。但当数据集很大的情况下,非平行超平面支持向量机在计算速度上仍很难得到提升。 本文基于大规模数据,采用分而治之的策略,提出了分而治之的非平行超平面支持向量机(DC-NPSVM),解决了非平行超平面支持向量机(NPSVM)处理大规模数据的问题。该算法将大规模数据集分成了若干个小数据集,对每一个数据集采用非平行超平面支持向量机进行求解,将每个小数据集得到的解合并,作为原始问题的初始点迭代点,再利用非平行超平面支持向量机对整个数据集进行求解,可以快速的得到精确解,从而得到分划超平面。由于初始点很接近真实解,所以经过几次迭代就可以得到整个问题的最优解。本文还进一步证明了通过这种分而治之的方法对每个小数据集进行求解并合并作为初始迭代点,该初始点很接近最优解,得到的目标函数值与真实的目标函数值之差的范数存在一个上界,以及得到的支持向量与真实的支持向量也很接近,所以该算法十分有效。大量的实验同样证明了该算法的有效性。 由于分而治之的非平行超平面支持向量机中需要调节的参数较多,本文利用v-非平行超平面支持向量机(v-NPSVM)的优势,进一步的提出了分而治之的v-非平行超平面支持向量机(DC-vNPSVM)来解决大规模数据的二分类问题。该算法虽然同样采取分而治之的策略,但该算法对于分类问题具有更高的分类准确率,这是因为该算法所涉及的参数较少,且参数的取值范围很小,只需比较少的时间训练模型。该算法在测试阶段采用了“early prediction”的策略,用比较少的时间就可以得到比较高的分类准确率。本文同样从理论和数值实验两方面证明了该算法的有效性。 大部分处理大规模数据的算法考虑的是如何降低训练模型的时间,但是测试花费的时间同样需要考虑。本文基于哈希技术,提出了哈希非平行超平面支持向量机(HNPSVM)来降低大规模数据在分类预测时的预测时间。该算法采用近似预测的方法,在不折损预测准确率的同时大幅度降低预测时间。此外,本文给出定理证明了当模型中的一个参数趋于正无穷时,哈希非平行超平面支持向量机的预测准确率趋于真实的预测准确率。大量的数值实验验证了该算法的有效性。 本文在处理大规模数据的基础上,还揭示了非平行超平面支持向量机的本质,提出了更高效的算法,基于一个优化问题的非平行超平面支持向量机(NSVMOOP),该算法能够用一个优化问题求解两条非平行的超平面,且具有更好的泛化性。此外,本文给出了改进的序列最小最优化算法(SMO)对该算法进行快速求解。大量实验验证了该算法的有效性。