【摘 要】
:
为提高智能模型的识别精度,增强其泛化能力,需要对用于智能建模的数据集中的对象类别异常进行检测和修 正.在进行数据集和决策树形式化描述的基础上,将基尼指数增益率作为确
【机 构】
:
中国石油大学(北京)地球物理与信息工程学院,中国石油大学(北京)油气数据挖掘北京市重点实验室,北京兆信信息技术股份有限公司石大兆信数字身份管理与物联网技术研究院
【基金项目】
:
国家863高技术研究发展计划基金项目(2009AA062802);国家自然科学基金项目(60473125);中国石油(CNPC)石油科技中青年创新基金项目(05E7013);国家重大专项子课题基金项目(G5800-08-ZS-WX);中国石油大学(北京)克拉玛依校区科研启动基金项目(RCYJ2016B-03-001)
论文部分内容阅读
为提高智能模型的识别精度,增强其泛化能力,需要对用于智能建模的数据集中的对象类别异常进行检测和修 正.在进行数据集和决策树形式化描述的基础上,将基尼指数增益率作为确定连续条件属性最优二分原则,采用递归算法 生成叶节点中对象为同一类别的二叉决策树.利用信息熵评价决策树剪除叶节点中对象的类别分布效果,实现数据集类别 异常的类别修正.决策树的生成和剪枝本质上是完成基于基尼指数和信息熵的连续条件属性数据空间分割和合并类别修 正.实验和实际应用验证了决策树生成和剪枝是数据集类别优化的有效方法.
其他文献
结合邓小平理论和"三个代表"重要思想,紧跟形势,抓住机遇,以多种多样的校园文化活动为载体进行爱国主义教育,激发大学生的爱国热情,培养合格人才.
运用企业创新网络结构和关系特征对技术创新的影响逐渐成为热点。文章引入"共生行为"作为中介变量,分析其内在作用机理,试图打开这个黑箱。采用Pearson相关分析和结构方程建模,
近年来中国企业频频受到美国国际贸易委员会的337调查,给我国企业的出口带来了严重影响。目前,中国很多企业对337调查还缺乏了解,更是缺乏必要的应对知识。有必要对337调查的由
目的:观察桃红四物汤对慢性盆腔炎患者炎性应激及局部微循环状态的影响。方法:将2014年5月—2015年2月本院收治的56例慢性盆腔炎患者随机分为对照组和观察组,每组各28例。对照
学风建设是高校各项工作的整体表现,其评价测量受到各种因素制约。本文借鉴前期研究者的结论,结合数据可得性,建立起学风评价综合指标体系,依据统计指数理论,使用心理学量表
词的色彩义是词汇系统的重要组成部分,但它不是一成不变的。针对色彩义的七种演变方式做了详细的说明,试图弄清它们的具体内涵,并从客观角度讨论色彩义在这七种方式中的分布
【正】工作到第七年的时候,我发现手里的人教版教材变成了北师大版教材,在这套教材的使用过程中,我遇到了许多以前没有碰过的问题,我没有别的选择,唯有自力更
张瑞华,一位在审计岗位上工作了15个春秋的普通审计人员,她瘦弱的身体里蕴含着无尽的活力,这种神奇的力量来自她对审计事业的深深热爱。十几年来,她主持、参加过上百个审计项
与反倾销调查相比,337调查对出口的危害性更大。由于我国对美出口的持续快速增长,再加上企业知识产权保护意识淡薄,对337调查应诉不积极,我国已成为337调查的最大受害国。为