【摘 要】
:
半监督学习是指利用大量“廉价”的未标记样本来辅助少量“代价高昂”的有标记样本学习的过程。正例无标记(Positive and Unlabeled,PU)学习是半监督学习中一类特殊的分支,传统半监督学习做二分类任务的训练样本中,标记样本包括正样本和负样本,而PU学习在训练分类器的过程中仅使用已标记正例样本和未标记样本。由于PU学习的初始训练集中没有已标记的负例样本,所以在学习过程中首先需要构造一个分
论文部分内容阅读
半监督学习是指利用大量“廉价”的未标记样本来辅助少量“代价高昂”的有标记样本学习的过程。正例无标记(Positive and Unlabeled,PU)学习是半监督学习中一类特殊的分支,传统半监督学习做二分类任务的训练样本中,标记样本包括正样本和负样本,而PU学习在训练分类器的过程中仅使用已标记正例样本和未标记样本。由于PU学习的初始训练集中没有已标记的负例样本,所以在学习过程中首先需要构造一个分类器找出隐藏在无标记样本集中的可靠负例,再将可靠负例加入初始标记样本集,进而构造新的分类器对无标记样本集进行分类。然而,在PU学习中通过构造分类器选取可靠负例时还存在许多问题。例如:如何在初始正例过少的情况下,有效地挖掘整个数据集空间结构,进而选出可靠负例;如何避免噪声点和离群点对有效提取可靠负例的影响;结合间谍技术进行选取可靠负例的过程中,如何解决随机选择间谍样本机制造成划分可靠负例时效率低下的问题;从无标记样本集中提取可靠负例后,如何保证剩余样本的纯净度问题。本文针对PU学习中提取可靠负例时难以有效地挖掘数据集空间结构且易受噪声点影响等问题进行研究,研究工作主要包括以下内容:(1)提出一种基于数据模糊性来选取无标记样本中可靠负例的PU学习方法。该方法首先对正例无标记样本集进行半监督聚类,通过聚类结果对数据模糊性进行等级划分,选出靠近正例样本的低模糊度数据来扩充初始正例集,而远离正例样本的低模糊度数据则作为可靠负例;然后剪辑掉无标记样本中高模糊度数据;最后在扩充后的标记样本集上训练分类器,对初始无标记样本集进行分类。(2)提出了一种结合间谍技术与半监督自训练的PU学习方法,该方法通过间谍技术从无标记样本中提取可靠负例,然后将剩余样本看做新的无标记样本,并对新的无标记样本进行自训练提纯,采用二次训练的方式取回被漏选的可靠负例。(3)在结合间谍技术与半监督自训练的PU学习的基础上改进间谍技术,通过挖掘出初始正例样本的空间分布信息,把握样本空间结构后计算正例样本的聚类中心,并找出距离聚类中心较近的样本作为间谍样本。重新定义后的间谍样本在空间结构上离聚类中心更近,所包含正例样本的真实信息量也更大,当这样的样本被选作间谍样本时,更能有效地体现无标记样本中未知正例的分布情况。
其他文献
水稻是我国重要的粮食作物之一,优质高产的水稻品种是育种工作的主要目标,而高产不优质,优质不高产成为了当今育种工作中的一个瓶颈。本研究利用低直链淀粉粳稻品种糯89-1和高直链淀粉籼稻品种蜀恢527构建的F2和F2:3群体,对8个产量相关性状和3个食味品质性状的遗传及两者间的相互关系进行了研究,以期为培育高产优质兼顾的水稻品种提供理论支撑。主要研究结果如下:(1)构建了一张包含152个SSR标记和17
在野外自然条件下,机器视觉获得的紫色土彩色图像难免包含种植的作物、地衣、苔藓、杂草等复杂背景,会干扰对紫色土土种的机器视觉识别。因此,从视觉图像中分割提取出紫色土区域图像,是进一步辨识紫色土土种,分析紫色土土壤学属性特征的基础工作。本文主要对野外自然条件下机器视觉采集的紫色土彩色图像中紫色土区域进行分割提取。主要工作如下:(1)为分割提取完整的紫色土区域,改进SLIC算法分割紫色土彩色图像。引入闵
<正> 苏共中央刊物《政治教育》1989半第12期刊载了历史科学副博士H·巴尔苏科夫的一篇长文《党在民主化的道路上》,作者对"全民党"的提法提出了批评,肯定了"一党制"的生命力
紫色土是西南地区的重要耕作土壤。对于普通的农业从业人员而言,识别土壤类型是土地耕作和作物种植的基础。本文旨在设计并实现一个紫色土分类识别系统,获得紫色土分类识别的辅助系统。本文的主要工作如下:(1)基于纹理的超像素算法的图像分割。针对传统超像素算法只考虑距离与颜色的特征而导致分割的精度不高,引入了纹理特征LBP,通过自适应选取合适的阈值提取轮廓信息结合距离与颜色特征,进行加权,得到后的图像,通过后
目的分析非甾体抗炎药的不良反应情况。方法对60例发生非甾体抗炎药不良反应患者进行回顾性分析,观察比较不同性别、年龄患者发生非甾体抗炎药不良反应情况,统计发生非甾体抗
<正>1.引言随着油气田勘探开发的不断深入,难度也在不断地增加。目前,油田的勘探目标己从之前的寻找大背斜、大断层、构造圈闭逐步转换为低幅度、薄砂层、小断层及岩性圈闭。
中华按蚊是中国以及东南亚等国家主要的疟疾传播媒介之一,有效防控中华按蚊,切断其传播途径,是该地区控制疟疾的关键。抗击疟疾主要的方法是利用杀虫剂对媒介蚊虫进行控制,但随着杀虫剂的大量使用导致蚊虫的抗药性明显增强,因此迫切需要新型的蚊虫防控策略。随着分子生物学的发展、基因工程技术的完善以及中华按蚊基因组、转录组数据的释放,使得利用转基因以及CRISPR/Cas9基因编辑技术进行蚊虫遗传控制已成为可能。
我国国有企业混合所有制改革,意在完善企业公司治理,同时增强国有企业内在核心竞争力。2013年十八届三中全会,公布了《中共中央关于全面深化改革若干重大问题的决定》,提出:“允许更多国有经济和其他所有制经济发展成为混合所有制经济。”国有企业进行混改,其目的是完善公司治理,企业依据自身所在领域,选择合适的股权结构,最终提高企业各方面的能力。格力电器于2019年进行混合所有制改革,历经8个月完成。格力电器
随着人工智能的飞速发展,人工智能应用取得了巨大的进步并且走入了人们的日常生活中,而饮食是人们日常生活中必不可少的一部分,菜品的识别与分类是目前备受关注的一个研究领域。围绕着菜品的识别与分类进行的二次开发如食物健康管理等应用给人们的生活带来了极大地便利。菜品的识别与分类可以看作是一个具有行业特点的目标检测任务,而传统目标检测算法中的手工特征及分类方法已经不能满足检测精度和检测速度的要求,因此需要将基