基于决策函数的多标签分类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:haokanhaowan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机技术的迅猛发展和社会的日益信息化,日常生活中的交易数据呈爆炸式涌现.如何从海量数据中获取有用的信息并对其进行合理归类,是数据时代需要研究的一个至关重要的问题.多标签分类是指把一个实例分派到多个不同标签的一个集合,这个问题等价于寻找一个多值的决策函数,把每一个实例映射到二元类的一个向量.通常,用于多标签分类的算法有二元相关性方法和链分类器,当贝叶斯网络增广的朴素贝叶斯作为基础模型时,这两个方法可以诱导出一个多项式表示的决策函数.本文主要基于此决策函数对多标签分类进行深入研究,主要研究工作如下:首先,为了提高决策函数的分类质量,本文提出了一个新的特征权重的方法——概率特征权重.它把特征属性的正负类实例的频率比作为权重,此特征权重来源于数据本身,能够较好的适应于数据集的改变.由于概率特征权重只是出现在决策函数的条件概率估计中,它可以保证对决策函数的分类结果施加一个正影响.通过在多标签数据集上的实验结果表明,概率特征权重方法能够较好地提升决策函数的分类质量.此外,为了简化决策函数,减少决策函数的计算复杂度,本文提出了决策函数无关变量的判别定理,通过对无关变量的选择和消除来简化决策函数.其次,不平衡数据的研究也是近年来关注的一个热点问题.本文基于决策函数对多标签不平衡数据进行研究,提出了基于多数类成本和少数类价值评估的多标签不平衡数据分类算法.在多标签分类中,不同类标签的不平衡度是不同的,不平衡度侧面反映出少数类分类正确的重要程度.根据不平衡度,对少数类分类正确的价值和多数类分类错误的代价进行评估,使多数类付出合理的代价,把少数类尽可能的分类正确.通过在多标签不平衡数据集上的实验仿真和利用成本和代价、1F度量和召回率等评估准则的评估,实验结果表明,我们所提的算法获得了较好的性能.最后,对本文所做的主要工作和创新点进行简要总结,并对今后的进一步研究做出展望和规划.
其他文献
音乐教育是高等教育中的重要组成部分,它在大学生的素质培养中起着不可替代的重要作用,音乐教育能促进大学生的智能开发,完善其知识结构;有助于加强大学生的角色意识和合作能
2006年初,国家发改委、财政部和亚洲开发银行(以下简称“亚行”)开始合作开展能效电厂机制研究,并拟利用亚行贷款于2007年在广东进行试点项目工作。为借鉴美国实践经验,加快能效电
改革开放40多年来,在党的领导下,我国农村发展日新月异,粮食连年增产,农民收入不断增长,农村基础设施明显改善。但城乡二元差距问题依旧明显,农业生产成本不断上升,国际竞争力不足,粮食安全受到威胁,资源环境压力增大。因此新常态下的农村发展目标由粗放式的产量增长转变为注重优化农村产业结构,提高农业生产效率、促进农民增加收入和实现农村兴旺繁荣,形成城乡一体化的农村发展新格局。为了完成这些目标,在2015年
通过对2007年春节、“五一”、“十一”节假日期间全国电力供需特性进行分析,总结出节假日对发电、用电负荷特性的影响,并进一步分析对销售电量的影响,有针对性地提出改善节假日
目的:红细胞分布宽度(Red blood cell distribution width,RDW)、血尿酸(Serum uric acid,SUA)可预测多种疾病的临床预后。然而,RDW和SUA对于慢性阻塞性肺疾病急性加重期(Acute exacerbation of chronic obstructive pulmonary disease,AECOPD)预后的联合预报价值迄今尚未见报道。本研究
目的通过对耐甲氧西林金黄色葡萄球菌(MRSA)医院感染的分析,探讨其临床特点及耐药性.方法对某院2002年1月~2003年12月42例MRSA感染者进行回顾性调查.结果 42例感染者100%接受