论文部分内容阅读
在信息社会,海量信息的获取并不意味着海量知识的获取,所以有关有益信息的提取方法显得日益重要。数据挖掘(Data Mining DM)是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,已经被广泛应用于金融、保险、政府、教育、运输以及国防等领域,作为一个多学科交叉的综合性领域,数据挖掘涉及了数据库、统计学、机器学习、高性能计算、模式识别、神经网络和数据可视化等学科。其中决策树算法是以实例为基础的归纳学习算法,以其计算量相对较小、易于提取显示规则、可以显示重要决策属性和较高的分类准确率等优点而得到广泛的应用。
在油藏评价系统这个项目中,经过研究发现,中石化油田、采油厂一级的部门并没有油藏类型,不能用对油藏的评价方法进行评价,他们以前的做法是先对其包含的各油藏进行评价,根据各油藏前一年的年产量所占的比例将各油藏的评价结果进行加权求和,得出油田或采油厂的评价结果。但是这种方法有很大的误差,并不能很好的反映油藏的真实情况。为了解决这个问题,通过对数据挖掘中ID3算法的学习,得到了改进的ID3算法并应用到了油藏评价系统中,取得了比较好的效果。
论文首先阐述了数据挖掘的原理,挖掘的过程,以及挖掘系统的分类,明确了数据挖掘所能处理的问题。然后探讨了数据挖掘与其它相关技术的关系,最后引出了决策树算法的原理,以及如何构建决策树。为进一步研究提供了理论基础。
论文第二部分是对ID3算法的原理进行了学习,作为决策树算法中经典算法,ID3算法被用到了很多方面,但是在学习ID3算法的过程中,发现了ID3的2个明显不足之处,即:无法处理连续型数据和选择属性分裂是偏向于取值较多属性的问题,提出了对信息熵加入偏重修正值的方法,并对ID3算法进行了改进。通过实例分析和比较,确定通过对信息熵引入偏重修正值的办法可行。而且比原始算法的准确率更高。
论文第三部分以油藏评价系统的开发为背景,将改进的ID3算法应用到了油藏评价信息系统的综合评价子系统中,并取得了不错的效果,证明了改进后的ID3算法在解决油藏评价问题方面更具有优势。
论文主要研究改进的ID3算法在解决油藏方面应用问题。现在数据挖掘技术已经应用到了很多方面,但是在油藏方面的应用还有待加强。本文是数据挖掘在油藏类问题上应用研究的一次成功尝试。
论文的最后对工作进行了总结,并提出了进一步研究方向。