学习模型中的样本选取策略的理论分析和算法优化

来源 :中山大学 | 被引量 : 0次 | 上传用户:wang8550cimc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着数学理论的不断完善,数据挖掘领域有了重大的发展。而大多数的研究偏向于用新理论对各种算法进行改进,却忽略了样本选取的重要性。作为数据挖掘算法的起点,样本的选取有着重要的意义。 本文从理论上分析了选取样本的必要性,并深入探讨样本选取的有效方法。详细剖析了两种有代表性模型的样本选取策略:神经网络和K近邻法。 RBF网络和BP网络是两种典型的具有非线性处理能力的学习模型。RBF的样本选取策略已经有很成熟的方法,本文作了简要的介绍;BP网络的样本选取策略则是当今正在探索的新方向,本文介绍了两种合理的选取策略:基于主属性的样本选取策略和基于相似属性的样本选耳v策略。本文还提出了异构BP网络,推导了其学习算法。 对于K近邻方法,本文主要从优化策略的角度来阐述样本选取对于K近邻分类的重要性。并提出了两种新的搜索方法,经验证可以高速地优化查找。接着介绍了两种选取样本策略:选取样本子集和构造样本。在选取样本子集策略中,利用了基于非相似性度量的原型选择思想,并对其中涉及到的NP完全问题提出了有效的解决方法;在“构造样本策略”中使用了聚类技术,以聚类簇代替原训练样本,达到了缩减样本数量和优化分类效果的目的。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
本文针对可靠性统计和图模型两方面的相关问题进行了研究。   Ⅰ型区间删失数据(也称当前状态数据)是可靠性工程和生存分析研究中经常遇到的一种数据类型。针对高可靠产品
学位
本课题研究的主要内容是给出非齐次树上马氏链场滑动平均、滑动和的若干强偏差定理。文章提出滑动似然比及滑动相对熵作为任意离散与连续马氏链场变量族联合分布与参考乘积分
压缩感知打破了传统Nyquist采样定理对信号采样率的限定,在一定条件下能够远低于Nyquist采样率的采样频率对信号进行采样,高概率的重构信号.  论文针对压缩感知测量矩阵的构
俗话说:“不学不成,不问不知。”人一生中的学习,无疑是带着问题而来,带着问题而去的活动。在小学语文教学中就应把学习的主动权交给学生,激发学生的学习兴趣,培养学生学会提
出版社:大牌出版本书作者山田五郎用观察变态的方式,细细观察艺术大师们的创作冲动,告诉读者每个时代的艺术家为何而画?作者甚至在书中扮演起心理医师,分析艺术家正常行为下
设k是一个特征p>0的代数闭域.用W(k)记k上的Witt向量的环,Ko是W(k)的分式域.设K是Ko的一个有限扩张,R是K的整数环.固定K的一个代数闭包K.设S=Spec(R)是R的谱,s、η、η分别是S的闭点
本文的第一部分主要介绍了本论文研究的问题和其社会意义;第二部分是定义和符号介绍;第三部分是一些与本论文相关的已有定理的介绍;第四部分是本文的主要结果。其中第四部分总共
对于非寿险保险产品,传统的精算定价方法是简单的一维分析方法和迭代最小偏差方法。这两种方法简单易行,但是缺乏完整的统计框架。而本文要讨论的定价方法——广义线性模型,是一
随着网络的庞大化和复杂化,网络威胁变得越发严重化,网络安全事件更加频繁。据国际权威机构调查,85%以上的安全事件出自内网,内网安全已经被证明是在高度信息化的情况下所有单位必