基于不完全监督的多标签分类算法

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:zlcz1025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多标签学习方法在多个领域的广泛应用,对多标签数据进行准确的分类,已成为研究多标签学习方法的重要课题之一。对于多标签数据来说,互联网的快速发展使得获取未标注的数据变得十分方便,但是想要获取已标注的多标签数据需要花费大量的时间和金钱。对此,本文充分利用少量已标注样本和大量未标记样本,提出了基于不完全监督的多标签分类算法。根据实现不完全监督学习的两种主要方式,本文将所提出的算法分为:基于主动学习的多标签分类算法和基于主动半监督学习的多标签分类算法。基于主动学习的多标签分类算法,首先根据多标签间的相互联系,利用陆地移动距离构建一个非对称的多标签间相关性矩阵;再将二元信源的熵与多标签间相关性矩阵相结合的方法计算样本标签对的信息含量,并以此作为主动学习的采样标准;最终将选取的样本交给人类专家进行标注,迭代地完成主动学习过程。此算法在考虑多标签间相互关系的同时也考虑了已标注数据和未标注数据所包含的信息,进一步提高了分类器对于多标签数据的分类性能。基于主动半监督学习的多标签分类算法,是在基于主动学习的多标签分类算法的基础上为了进一步提高算法的分类效率,而加入半监督学习自动的进行选择和标注未分类的多标签数据。算法中采用的半监督学习策略包括基于模糊粗糙集中有序加权平均算子的分类算法、基于支持向量机的半监督分类算法和基于半监督近邻的分类算法。此算法在一次迭代中同时进行主动学习的人工标注和半监督学习的自动标注,进一步提高了多标签分类器的分类效率。本文所提出的基于不完全监督的两种多标签分类算法与其他七种多标签分类算法在三个多标签数据集上针对四种评价指标进行了对比实验。实验结果表明,新提出的两种分类算法在分类性能上较其它传统多标签分类算法和较新提出的分类算法都有进一步的提升。
其他文献
近几十年来,药物化学家逐渐发现,从天然产物分离得到的生物活性分子中具有螺杂环结构的化合物占有较大的比例。就结构而言,此类化合物具有以下特性:首先,因其特殊的立体电子效应使其具有螺共轭以及螺超共轭现象;其次,在分子中引入螺杂环结构可以有效地改善化合物的稳定性、药性以及生物活性。基于此,对这类化合物的合成与应用成为了有机合成的研究热点与前沿领域之一。本论文主要通过[3+2]环加成反应构建了一系列结构新
遥感成像技术广泛应用于目标定位、地质勘测和检测地球表面环境变化等领域,图像匹配是遥感成像技术中的研究热点之一。由于遥感成像过程中存在光照分布不均、硬件设备位移和
街头官僚是政府雇员中最基层的、直接与公民打交道的一线执法人员,他们是我国官僚队伍中的中坚力量。街头官僚是政府与民众之间沟通的桥梁,是政府在民众心目中的形象代言人,
转座子是一段可以在基因组上自我复制或者“跳跃”的DNA片段。活跃转座子的转座会在个体间产生丰富的转座子变异,给宿主的生命活动造成影响。利用不同个体异常比对的读段序列
2018年,世界银行对全球贫困情况进行调研并作出报告,对过去的25年全球消除贫困情况作了全方面统计,并在报告中指出,部分国家和地区贫困问题根深蒂固、最贫困40%人口的收入停
苜蓿假盘菌(Pseudopeziza medicais)是苜蓿褐斑病的致病菌。该菌以有性繁殖形成的子实体假囊盘越冬,翌年春天子囊盘释放出子囊孢子进行初侵染完成侵染循环。研究子实体的结构
随着全球各国工业化进程的加快,汽车保有量快速上升,伴随而来的环境污染与能源短缺问题日益突出。而混合动力汽车采用高效节能的驱动方式,既污染小又续航里程远。EVT(Electrical Variable Transmission)系统作为混合动力传动系统的典型代表,具有广阔的发展空间和重要的科研价值。本文将EVT混合动力传动系统作为研究对象,采用图论与机器学习等研究方法,开展了如下工作:(1)建立EV
内部控制是企业在管理进程中为了实现提高经营效率、扩大企业规模、实现财务报告准确化等经营目标的保障。现如今内部控制已经逐渐成为公司治理中极为重要的一部分,关系到企
苦豆子Sophora alopecuroides L.是我国西部荒漠半荒漠地区防风固沙的主要植物之一,同时也是重要的蜜源、饲用、药用植物之一,其根系发达,在自然环境中的生长区呈现典型的斑
植物真菌病害预防的关键是实时监测空气中病菌孢子的数量,以此为依据做出对植物发病的预警。常规的孢子检测是通过单一的孢子捕捉装置捕捉空气中的孢子,将样本取回实验室在显