论文部分内容阅读
随着信息技术的发展,多标签分类技术己逐渐被广泛应用于各种领域。例如,在计算机视觉领域,多标签分类技术可用于自动标注图像和视频;在生物信息领域,多标签分类技术可用于基因功能预测;在文本挖掘领域,多标签分类技术可用于文本分类。不管多标签分类技术被用于哪个领域,它都面临特征数过大引起的问题,如过拟合等。一般,特征可被分为三种,即相关特征、无关特征和冗余特征。特征选择的目的就是最佳特征子集,该子集包含的特征数尽量少且信息尽量全。多标签特征选择技术就是专门针对多标签数据进行特征选择的技术。与传统的特征选择一样,多标签分类技术也可分为三类,即过滤式、封装式、嵌入式。一般,过滤式方法有两种。其一是将先多标签数据转化为单标签数据再以传统的过滤式方法的研究方案解决问题,该种方法是以破坏标签间关联性为代价来降低问题难度。其二是改进传统的评价标准或直接提出新的评价标准,该种方法目前并不多。封装式和嵌入式方法都依赖于分类器,通过改进搜索算法可获得更好的特征子集。虽然,现在已有一部分多标签分类算法,但这些算法同样还存在一定问题。为了更好的解决在多标签分类所面临的由维数引起的问题,本文将针对具体问题做出下工作:(1)目前,常见的多标签特征选择算法一般忽略了样本与样本之间的联系。事实上,相似样本可能具有相似的标签信息,任意样本都是可以被其它同类样本表征的。为了获得更好的特征子集,我们先通过最小二乘回归寻找到样本与样本之间的关联,再合理兼顾这些关联基础上获得特征的表征分数,接着根据表征分数大小获得特征排名序列。(2)在封装式特征选择算法中,寻找的特征子集由分类器性能和搜索算法共同决定。几种完整的封装式算法组合而成的特征选择算法需要保证每个子算法的运行时间才能保证效果好。基于遗传算法的封装式方法容易因早熟现象的出现而未能使特征选择结果达到全局最优。为了获得较好特征选择结果,我们先分析模拟退火中的Metropolis准则和遗传算法中的变异操作,再将Metropolis准则和大变异引入遗传算法,最后提出一种基于改进型遗传算法的多标签特征选择算法。(3)通过转化方法再用信息增益、F统计量、卡方、Relief等传统的度量标准分别评价单个特征与单个标签的关联的多标签特征选择算法都具有忽略标签间关联这一缺陷。嵌入式和封装式这两类算法虽可习得分类效果较好的特征子集,但是它们具有计算复杂度高这一特性。为了兼顾标签间关联和计算复杂度,我们先通过区分特征与标签和特征与标签集合之间的关联,再直接采用信息增益度量特征与标签全集的关联程度,最后根据关联程度获取最优子集。