论文部分内容阅读
近年来,随着计算机技术的迅猛发展和社会的日益信息化,日常生活中的交易数据呈爆炸式涌现.如何从海量数据中获取有用的信息并对其进行合理归类,是数据时代需要研究的一个至关重要的问题.多标签分类是指把一个实例分派到多个不同标签的一个集合,这个问题等价于寻找一个多值的决策函数,把每一个实例映射到二元类的一个向量.通常,用于多标签分类的算法有二元相关性方法和链分类器,当贝叶斯网络增广的朴素贝叶斯作为基础模型时,这两个方法可以诱导出一个多项式表示的决策函数.本文主要基于此决策函数对多标签分类进行深入研究,主要研究工作如下:首先,为了提高决策函数的分类质量,本文提出了一个新的特征权重的方法——概率特征权重.它把特征属性的正负类实例的频率比作为权重,此特征权重来源于数据本身,能够较好的适应于数据集的改变.由于概率特征权重只是出现在决策函数的条件概率估计中,它可以保证对决策函数的分类结果施加一个正影响.通过在多标签数据集上的实验结果表明,概率特征权重方法能够较好地提升决策函数的分类质量.此外,为了简化决策函数,减少决策函数的计算复杂度,本文提出了决策函数无关变量的判别定理,通过对无关变量的选择和消除来简化决策函数.其次,不平衡数据的研究也是近年来关注的一个热点问题.本文基于决策函数对多标签不平衡数据进行研究,提出了基于多数类成本和少数类价值评估的多标签不平衡数据分类算法.在多标签分类中,不同类标签的不平衡度是不同的,不平衡度侧面反映出少数类分类正确的重要程度.根据不平衡度,对少数类分类正确的价值和多数类分类错误的代价进行评估,使多数类付出合理的代价,把少数类尽可能的分类正确.通过在多标签不平衡数据集上的实验仿真和利用成本和代价、1F度量和召回率等评估准则的评估,实验结果表明,我们所提的算法获得了较好的性能.最后,对本文所做的主要工作和创新点进行简要总结,并对今后的进一步研究做出展望和规划.