决策树分类算法的改进及其应用研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:zhiyouyiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们对数据挖掘理论的不断探讨和研究,数据挖掘技术在各行各业中的应用日趋广泛和成熟。在诸多的数据挖掘技术和方法中,决策树方法是用于数据分类和预测领域的重要方法之一,它是一种以实例为基础的归纳式学习算法,从一组无次序、无规则的实例中推理出决策树形式的分类规则,进而预测未知数据。ID3算法是决策树构造方法中最为常用的实现方法,它在数据分类和预测领域得到广泛应用,然而,在实际应用中,发现ID3算法存在很多不足之处。因此,本文重点研究决策树方法中的ID3算法,分析ID3及其改进算法的优缺点,给出合理的优化方案,以完善ID3算法,使其具有更好地分类效果。具体的优化方案主要体现在以下两个方面:第一,简化ID3算法的启发式函数。本文通过近似值的方法,对ID3算法的信息增益公式进行近似推导,消除其中复杂的对数运算,最终得到适用于多类的、具有通用性和一般性的简化启发式函数。新的ID3简化算法选择信息增益最小的属性作为测试属性,在计算信息增益时,避免了对数运算,只包含计算机较易处理的基本运算符号,所以,在一定程度上减少了选取最优属性的计算量,提高了算法的执行效率。第二,解决ID3算法的多值偏向问题。本文引入权值函数的概念从根本上克服ID3算法的多值偏向问题。其核心思想是:通过引入基于属性取值个数的单调权值函数,为不同属性自动分配不同权值,以权衡属性取值个数与信息增益之间的关系,进而得到新的最优属性选取标准。通过实例分析和算法比较,改进后的ID3算法选取的测试属性更为合理,进而从形成的决策树中提取的规则更为符合人们的实际需求。最后,本文通过一个实例实现了ID3优化算法在学员续费决策问题中的应用。根据学员分类应用流程,将学员基本信息表和学员反馈信息表整合而成的新数据集作为ID3优化算法的挖掘样本集合,最终形成决策树,并从中提取出知识规则。利用从大量学员相关数据背后挖掘出的知识规则可以辅助企业管理者更准确的做出判断和决策,提高了企业效益。
其他文献
人脸识别作为一种重要生物特征识别技术,由于其自然性、非强制性、非接触性、安全、简易等特点,以及其在安全认证、智能监控、人机交互等领域的广泛应用前景,近年来深受研究学者
随着云计算的大力发展,越来越多的服务和应用出现在互联网平台上。存储在“云”中的用户敏感数据由于不受用户自己控制而变得很容易被泄露。本论文将云服务提供商视为潜在的
微博作为一种新型网络应用,其信息传播方式兼具新闻传播和人际传播的特点,为人们自由、快速表达观点的同时亦成为一股网络舆情传播新势力,它的特殊结构和影响力使得舆情的传
中医药信息是几千年中华文明的一块瑰宝,但其知识体系及其庞大并且表达非常复杂。考虑如何由古籍的分散非系统化的知识和积累了数千年的经验案例抽象成为系统化的可分析的科学
无线传感网络(Wireless Sensor Network,WSN)是由部署在监控范罔内的大规模传感器节点组成,为安全监控、过程控制、智能电网等领域提供不同功能的自组织网络系统。与传统的网
Collage作为一种展示图像的艺术形式,其突出的特点是一方面方便管理和展示图像集合,另一方面可以使得用户以一种欣赏的心态获取这些图像的信息。这些特点使得越来越多的互联网
物联网是实现云计算和普适计算蓝图的关键网络保障,旨在为用户提供任何时间、任何位置、任何事物、任何人之间的信息交流和智能控制。无线传感网络是物联网的支撑技术之一,负
科学工作流技术始于工作流技术在科学实验领域的应用,随着科学实验信息化的发展,最近逐渐成为工作流的研究热点。与面向控制的传统工作流技术相比,科学工作流是数据驱动的,且须保
智能手机的大规模普及和3G网络的大范围覆盖共同带动了移动互联网的蓬勃发展。在这一波浪潮中,基于智能手机平台的应用如雨后春笋般冒出。同时,智能手机硬件计算能力的提升和
近年来,物流业发展迅猛,依靠人工来实现存储物的存储和管理的传统仓储系统已严重制约现代物流企业的发展,融合自动控制、网络管理等多种技术的智能仓储系统出现了。其中,存储量大、安全性高的密集架仓储系统在各个领域得到广泛应用。本文对比现存的密集架仓储系统的通信设计方案,针对存在的通信速率较慢、可靠性较差、成本比较高的缺点,提出了一种基于CAN总线的密集架智能仓储系统的设计方案,将现场总线控制系统中具备高性