论文部分内容阅读
多标记分类问题广泛存在于现实的各种应用中,例如图像注释、文本标注、生物信息基因学、医疗诊断和金融分析等。其中,生物学、医疗诊断和金融分析等应用要求分类模型可以从训练集中提取出有效的、易于理解的分类规则。然而大部分多标记分类算法只能从训练集合中学习到分类函数,极少算法可以提取出分类规则。值得注意的是,多标记决策树算法可以生成分类规则,但该算法忽略了标记间的共现性和相关性。本文结合模糊粗糙集的理论知识以及标记相关特征的思想,提出了下列算法:第一,提出了基于模糊粗糙集的多标记决策树算法,即多标记模糊粗糙决策树。利用多标记模糊依赖度选择决策树的节点属性。为了考虑到标记间的相关性,将多标记视作多类,对信息增益率重新定义,用于选择最佳属性分裂值。该算法考虑了标记间的相关性,可以同时处理离散、连续和模糊属性,构造出来的多标记决策树也可以提取出直观、易理解的分类规则。第二,提出了考虑标记相关特征的多标记决策树算法。采用信息增益率作为属性选择度量方法,针对每个标记提取出其相关特征。利用标记相关特征和由此推导出的特征相关标记,改造多标记模糊粗糙决策树算法中的多标记模糊依赖度,以此作为选择节点属性的度量指标。该算法继承了多标记模糊粗糙决策树算法的优点——可同时处理离散、连续和模糊型数据,考虑了标记间的相关性和共现性,也可以从训练集中提取出有效的分类规则。通过在多标记数据集上,与现有的多标记分类算法实验对比,验证了这两个新的决策树算法都具有较好的分类能力。同时,多标记模糊粗糙决策树和基于标记相关特征的多标记决策树算法的实验对比,也验证了分类时考虑标记相关特征的重要性。