多标签分类中特征选择算法研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:guanshui5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,多标签分类技术己逐渐被广泛应用于各种领域。例如,在计算机视觉领域,多标签分类技术可用于自动标注图像和视频;在生物信息领域,多标签分类技术可用于基因功能预测;在文本挖掘领域,多标签分类技术可用于文本分类。不管多标签分类技术被用于哪个领域,它都面临特征数过大引起的问题,如过拟合等。一般,特征可被分为三种,即相关特征、无关特征和冗余特征。特征选择的目的就是最佳特征子集,该子集包含的特征数尽量少且信息尽量全。多标签特征选择技术就是专门针对多标签数据进行特征选择的技术。与传统的特征选择一样,多标签分类技术也可分为三类,即过滤式、封装式、嵌入式。一般,过滤式方法有两种。其一是将先多标签数据转化为单标签数据再以传统的过滤式方法的研究方案解决问题,该种方法是以破坏标签间关联性为代价来降低问题难度。其二是改进传统的评价标准或直接提出新的评价标准,该种方法目前并不多。封装式和嵌入式方法都依赖于分类器,通过改进搜索算法可获得更好的特征子集。虽然,现在已有一部分多标签分类算法,但这些算法同样还存在一定问题。为了更好的解决在多标签分类所面临的由维数引起的问题,本文将针对具体问题做出下工作:(1)目前,常见的多标签特征选择算法一般忽略了样本与样本之间的联系。事实上,相似样本可能具有相似的标签信息,任意样本都是可以被其它同类样本表征的。为了获得更好的特征子集,我们先通过最小二乘回归寻找到样本与样本之间的关联,再合理兼顾这些关联基础上获得特征的表征分数,接着根据表征分数大小获得特征排名序列。(2)在封装式特征选择算法中,寻找的特征子集由分类器性能和搜索算法共同决定。几种完整的封装式算法组合而成的特征选择算法需要保证每个子算法的运行时间才能保证效果好。基于遗传算法的封装式方法容易因早熟现象的出现而未能使特征选择结果达到全局最优。为了获得较好特征选择结果,我们先分析模拟退火中的Metropolis准则和遗传算法中的变异操作,再将Metropolis准则和大变异引入遗传算法,最后提出一种基于改进型遗传算法的多标签特征选择算法。(3)通过转化方法再用信息增益、F统计量、卡方、Relief等传统的度量标准分别评价单个特征与单个标签的关联的多标签特征选择算法都具有忽略标签间关联这一缺陷。嵌入式和封装式这两类算法虽可习得分类效果较好的特征子集,但是它们具有计算复杂度高这一特性。为了兼顾标签间关联和计算复杂度,我们先通过区分特征与标签和特征与标签集合之间的关联,再直接采用信息增益度量特征与标签全集的关联程度,最后根据关联程度获取最优子集。
其他文献
网格是继Internet和Web之后的第三代互联网应用,其目标是将互联网上计算资源、存储资源、通信资源、软件资源、信息资源和知识资源等所有资源全面整合在一起,通过高速互联网
随着Internet技术的飞速发展,信息的规模呈爆炸式增长。人们在享受丰富的信息资源同时,也面临着难以快速的从海量信息资源中寻找出自己需要的信息的困扰。为了帮助人们快速高
多维数据阵分析是一种用于复杂体系解析的荧光分析技术,在生命科学,环境科学和石油化工等方面有很广泛应用价值。目前该分析方法的理论和实验都发展得比较成熟,但是由于缺乏
复电阻率测井(CRL,Complex Resistivity Logging)是电阻率测井方法的完善和发展。从理论角度看,其区别于常规电阻率测井方法的主要特征为:复电阻率测井把电性参数的频散特性
双目立体视觉是计算机视觉领域中的一个重要研究方向,而立体匹配问题又是立体视觉中的一个瓶颈问题,故研究一种鲁棒性好、精确度高、性能稳定和适用性强的立体匹配算法依然面临
采集数据是科学研究和数据利用与分析的基础。粗糙集理论已经成为处理完备信息系统强有力的工具。在现实生活中,由于条件、技术、方法的限制,以及主观因素和客观因素的影响,
计算机辅助缺损颅骨修复已成为一个热门的研究问题,也是可视化研究的一个突出难点,相关的研究成果已经被应用到了虚拟整形手术、颅骨复原、考古学、公安法医学等各个领域。近
由于Web服务数量的急剧增长,快速而准确的查找到所需要的Web服务以及在功能相似的Web服务中如何找到最佳的服务成了研究人员最为关心的问题。各种功能的Web服务不断出现,如何
网格技术是在网络的高速发展基础上出现的,它最大限度地利用网络将地理上广泛分布的各种资源组织起来,从根本上消除了资源“孤岛”,实现真正的资源共享。然而,由于网格环境的
创建逼真的三维人脸模型一直以来都是计算机图形学领域一个极富有挑战性的课题。人脸的造型和表情动画被广泛应用于虚拟现实、影视制作、游戏娱乐、可视电话等领域。   本