基于联合正则化半监督分类方法的研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:blnxy778
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,仅仅通过人工处理海量数据的方法往往不符合实际。为此,产生了以计算机为工具,并结合统计学等多个学科的机器学习。机器学习的方法为计算机处理海量信息提供了解决方案。在很多实际问题中,需要对样本进行类标记,通常已有类标记的样本量较少,而无类标记的样本较多。限于时间或成本等因素,在短时间内难以对所有的样本进行标记。因此,为解决类标记问题,在监督学习的基础上,加入大量的无标记样本,共同训练模型以预测未标记样本的类标记,产生了半监督学习。近年来,半监督学习的思想和方法广泛应用于工程、生物、医疗、金融等多个领域。  目前,半监督学习的研究主要集中在流形正则化框架下,即构造流形正则项以度量样本的几何结构。现有的模型改进主要包含:引入成对约束项等方法再次挖掘标记样本信息;改进模型的损失函数,如在损失函数中加入投影的方法;改变模型的结构,如将支持向量机模型推广为双子支持向量机模型;引入相关准则,如引入信息论中最大相关熵等方法,以提高模型的稳健性。  本文在相关研究的基础上,提出了两个基于联合正则化半监督分类模型。为获取更多的经验信息,在流形正则化框架下,引入成对约束与最大相关熵等方法,提出基于最大相关熵准则成对约束半监督分类模型,并给出模型的参数估计。将成对约束项加入到半监督投影双子支持向量机模型中,提出基于成对约束半监督投影双子支持向量机模型,并给出模型的参数估计。同时,从半监督分类方法出发,描述并对比不同背景下的半监督分类模型。结合生成式方法,总结出半监督生成式方法的一般步骤。最后,分别在构造数据集和UCI数据集上,对比提出的模型与现有模型的分类正确率。实验结果显示,改进的半监督模型在一定程度上提高了分类准确率与模型稳健性。
其他文献
通过对镫口扬水灌区总干渠悬沙粒径变化规律的分析,摸清镫口扬水灌区泥沙淤积现状,分析总干渠泥沙淤积的主要原因,提供基础研究。 Based on the analysis of the variation
当技术形成和稳定之后,技术扩散成为提高经济实体质量和提升经济发展速度的重要力量。当前对技术扩散的研究呈现三点不足:一是,缺乏较为系统的分析框架,多以单一的成本论或收益
三江日报是中共佳木斯市委机关报。佳木斯市是祖国著名的三江平原上的中心城市,它有13个县1个郊区,农业是该市重要的战线。40万户农户,200多万农民,是我们报纸的主要读者。
文章在介绍背景资料的基础上,分析红山水库蒸发量随气象要素而变化的规律,并得出结论。 Based on the introduction of background data, the article analyzes the law of
文章针对乌海市主要河道存在的问题,提出了治理措施和对策。 The article puts forward the governance measures and countermeasures for the existing problems in the m
文章论证了最大干密度与相似模比成对数线性关系理论,根据该理论推算出了原级配大粒径粗粒土的最大干密度和最小干密度,为大粒径粗粒土压实性评定提供了一种方法,此方法解决
文章基于新疆地区内6个气象站点1954~ 2008年气象要素数据,采用帕默尔(Palmer)干旱指数对新疆地区干旱进行评价,研究成果为新疆地区干旱研究和水资源保护提供参考价值.
标记叶龄。是水稻科研中和指导生产时常需进行的一项重要工作。过去的方法是点红漆并挂牌(目前还有很多单位仍沿用此法)。近年来,有的人开始用号码印标记。据笔者几年来实际
道路交通安全是当今社会关注的一个焦点。《道路交通安全法》颁布后,机动车第三者责任强制保险制度成为近几年学术界研究和社会各界关注的一个热点,但学者们从法学角度讨论较多
在竞争日益激烈的环境下,企业只有以市场为导向,强调合作、信息共享、快速反应,才能使自己以及相关企业在竞争中处于优势地位。供应链管理作为增强企业乃至整个行业竞争力的关键