论文部分内容阅读
多标签学习是机器学习的重要组成部分,在现实生活中有很多应用。分类器评价标准是衡量分类器好坏的重要指标。常用的多标签分类器评价标准有Hamming loss、One-error、Coverage、Ranking loss和Average precision。多标签分类器对测试样本进行分类预测的时候并未给出分类结果的评价标准。通常需要标记测试样本才能够得出标价标准值,然而标记测试样本有时候代价昂贵。那么是否可以不标记测试样本就能得出多标签评价标准值呢?本文围绕这一问题,分别从样本分布差异和样本实例间差异对多标签评价标准进行估计。从实验结果可以看出,训练样本和测试样本的分布差异和多标签评价标准都具有良好的线性关系;训练样本和测试样本的实例间差异和多标签评价标准也都具有良好的线性关系;针对不同的评价标准,相关性程度也不同。分析这两种方法的特点,之后结合样本分布差异和样本实例间差异对多标签评价标准值进行线性拟合估计。实验表明,这三种多标签评价标准估计方法具有良好的效果。迁移学习是机器学习的研究热点,在实际生活中的应用越来越广泛。负迁移现象是迁移学习中不可避免的话题。迁移学习的效果取决于源域样本和目标域样本的相似性。当源域样本和目标域样本的相似性较小时,迁移学习的效果可能不好,甚至会发生负迁移现象;反之,则发生正迁移。本文从样本分布差异和样本实例间差异考察源域和目标域的相似性,然后考察迁移学习的效果。实验表明,当源域样本集和目标域样本集的分布差异较小时,易发生正迁移;否则,易发生负迁移;当源域样本实例和目标域样本实例间的差异较小时,易发生正迁移;反之,易发生负迁移。有关多标签学习和迁移学习的综合研究还比较少。本文对单标签迁移学习算法TrAdaBoost算法进行改进,将其应用到多标签学习领域。实验表明,改进后的TrAdaBoost算法效果良好。然后,再根据源域样本和目标域样本的分布差异和实例间差异考察源域和目标域的相似性对多标签迁移学习效果的影响。实验表明,多标签迁移学习的效果与源域和目标域的相似性跟单标签迁移学习的效果与源域和目标域的相似性一样。