极大不相关多元逻辑回归及其在大规模文本分类中的应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chuanguowuhen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模的不断增大,普通的多元逻辑回归已经不能够满足大数据处理的需求。其一,大规模数据中通常含有较多重复冗余的信息,也就是说多个不同的类别之间可能包含相似或相同的特征,这些特征将严重影响分类算法的决策,最终导致错误的分类结果。其二,随着数据规模的增大,计算所需的资源已经超过单一机器的极限,导致算法训练时间过长,或是根本无法进行。针对数据冗余问题,本文提出了一种极大不相关多元逻辑回归(Maximal Uncorrelated Multinomial Logistic Regression,MUMLR)分类模型。其主要思想是通过增加极大不相关正则项来降低数据中共同信息的权重,尽量保留更多不相关、有判别的信息。此外,鉴于多元逻辑回归与神经网络的关系,本文将“极大不相关”在多元逻辑回归中取得的成果应用到了神经网络中,并提出了极大不相关神经网络(Maximal Uncorrelated Neural Networks,MUNN)。极大不相关神经网络同时具备了极大不相关多元逻辑回归算法的高鲁棒性和神经网络模型强大的拟合能力,使得该算法具有广阔的应用前景。针对数据规模超出单一机器处理极限的问题,本文根据不同的数据特性分别提出了全局变量一致性极大不相关多元逻辑回归(Global Variable Consensus Maximal Uncorrelated Multinomial Logistic Regression,GVC-MUMLR)算法和共享极大不相关多元逻辑回归(Sharing Maximal Uncorrelated Multinomial Logistic Regression,SMUMLR)算法。全局一致性极大不相关多元逻辑回归用以解决数据样本个数过多,串行的梯度优化方法无法有效进行优化求解的问题。共享极大不相关多元逻辑回归用以解决数据维度过高导致的维度爆炸问题。最后,针对文本分类领域较易出现数据冗余和数据规模过大的问题,本文在上述研究的基础上,设计实现了一个大规模文本分类系统,并成功的将算法成果应用到了大规模文本分类上。
其他文献
【正】 鲁迅的小说《故乡》中有这样的一段话:“我想到希望,忽然害怕起来了。闰土要香炉和烛台的时候,我还暗地里笑他,以为他总是崇拜偶像,什么时候都不忘却。现在我所谓希望
期刊
目的 为对基于移动互联网的健康信息搜索行为进行研究,分析其影响因素,使人们进行有效自我健康管理。方法 主要通过问卷调查的方法,研究健康信息行为的需求和特点,对移动健康
对大部分双原子分子体系某一跃迁带而言,由于受实验条件的限制,往往很难获得跃迁带内高振转能级的跃迁谱线,而只能测得一组几乎能包含体系振转信息的实验能谱子集合。本文应
简要介绍了高新材料在体育项目中的应用及对体育成绩的影响,指出在发展竞技体育过程中,必须重视高新材料的研制、开发和利用.
针对隧道空间狭小,全站仪难以对盾构机上2个以上点进行测量,提出利用智能全站仪、双轴电子倾斜仪组合导向控制技术,在三维直角坐标转换模型的基础上将双轴电子倾斜仪测定的盾构
本文将从理论和实例两方面并行,阐述以网络为基础的数据库和新生的算法广告对广告产业的影响。具体说来,首先本文将以谷歌为例子介绍算法广告的相关背景。其次,本文将阐述网
近年来,中国生猪市场体系已基本形成。价格波动频繁,生猪饲养者、加工与贸易企业规避风险的需求日益强烈。国家也迫切需要通过健全市场机制,以引导生猪生产与消费。根据我国农产
分析参考作物腾发量的时空变化特征,有助于了解中国农业及生态需水的分布与演变规律。基于全国范围200多个气象站测站逐日气象观测资料,应用FAO-Penman-Monteith公式,计算得出各
重庆市通远门作为重庆九开八闭17道城门中唯一的陆路城门,是古代重庆传统历史文化的重要遗产之一,具有重要的文物价值。其地处寸土寸金的解放碑商业圈,其经济投入与价值回报无法
近几年来大力提倡环保低碳的生态理念,在各个行业的发展过程中得到了良好的效应。在童鞋的艺术设计之中,同样须要遵循生态设计这一可持续发展的科学发展观。能够根据当前童鞋