基于样本对的极小决策树构建

来源 :华北电力大学(北京) 华北电力大学 | 被引量 : 0次 | 上传用户:xigua871030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类社会生活、学习和日常生产的进步与Internet技术的快速发展,产生了海量的、有潜在利用价值的数据信息。如何使用相关工具和技术有效、准确和经济地从海量数据信息中发现有价值的知识,提取潜在的有效规则,更好地为生产、生活服务,已经成为数据挖掘中一个热点的研究领域。数据挖掘技术中的分类算法在商业领域中应用的最为广泛,而决策树学习算法又是数据挖掘技术的核心算法之一。ID3算法是一种构建决策树的经典算法,但ID3算法存在内在偏置和生成的决策树需要进行剪枝等问题。本文主要介绍了构建决策树的新算法。针对一致决策表和不一致决策表分别作了如下研究。(1)对于一致决策表,首先定义了极小特征集合,因为极小特征集合中的特征都是必要的,所以由极小特征集合中的特征构建的极小决策树中不包含冗余特征,且规则是一致的;其次给出了一种计算极小特征集合的方法和构建极小决策树的算法,并通过实例验证算法的可行性和有效性。(2)对于不一致决策表,基于β分布构造出β分布一致集合,并定义了一个条件特征的相对辨识关系。由于每个极小特征都对应着某个条件特征的等价类,所以可以使用等价类寻找全部的极小特征,进而由全部的极小特征构成一个极小特征集合。最后,结合辨识关系和等价类,本文给出了一种寻找全部极小特征的方法和构建极小决策树的算法,并通过例子进行了验证。本文构建的极小决策树与传统的ID3算法相比,既没有ID3算法中的内在偏置,也没有由ID3算法生成的决策树需要剪枝这一过程等。
其他文献
在自然科学与工程技术中,许多实际问题的数学模型可以用脉冲泛函微分系统来描述比如在物理学中的电路信号系统,光学控制,在医学领域中的神经网络、遗传和流行病学,在经济领域中,利
路和圈是图的两种基本结构,是分析和刻画图的有利工具。有大量的实际问题可以归结为图的路和圈问题。所以图的路和圈问题是图论中一个十分重要而且活跃的研究课题。图论中三大
乡镇和企业是培养和造就年轻干部成长的源头和基地,而实践锻炼是培养教育年轻干部非常有效的途径和方法。近年来,扶绥县利用乡镇和企业这块沃土,培养和造就了一批与人民群众