论文部分内容阅读
随着数据规模的不断增大,普通的多元逻辑回归已经不能够满足大数据处理的需求。其一,大规模数据中通常含有较多重复冗余的信息,也就是说多个不同的类别之间可能包含相似或相同的特征,这些特征将严重影响分类算法的决策,最终导致错误的分类结果。其二,随着数据规模的增大,计算所需的资源已经超过单一机器的极限,导致算法训练时间过长,或是根本无法进行。针对数据冗余问题,本文提出了一种极大不相关多元逻辑回归(Maximal Uncorrelated Multinomial Logistic Regression,MUMLR)分类模型。其主要思想是通过增加极大不相关正则项来降低数据中共同信息的权重,尽量保留更多不相关、有判别的信息。此外,鉴于多元逻辑回归与神经网络的关系,本文将“极大不相关”在多元逻辑回归中取得的成果应用到了神经网络中,并提出了极大不相关神经网络(Maximal Uncorrelated Neural Networks,MUNN)。极大不相关神经网络同时具备了极大不相关多元逻辑回归算法的高鲁棒性和神经网络模型强大的拟合能力,使得该算法具有广阔的应用前景。针对数据规模超出单一机器处理极限的问题,本文根据不同的数据特性分别提出了全局变量一致性极大不相关多元逻辑回归(Global Variable Consensus Maximal Uncorrelated Multinomial Logistic Regression,GVC-MUMLR)算法和共享极大不相关多元逻辑回归(Sharing Maximal Uncorrelated Multinomial Logistic Regression,SMUMLR)算法。全局一致性极大不相关多元逻辑回归用以解决数据样本个数过多,串行的梯度优化方法无法有效进行优化求解的问题。共享极大不相关多元逻辑回归用以解决数据维度过高导致的维度爆炸问题。最后,针对文本分类领域较易出现数据冗余和数据规模过大的问题,本文在上述研究的基础上,设计实现了一个大规模文本分类系统,并成功的将算法成果应用到了大规模文本分类上。