数据挖掘技术在油田生产管理信息系统中的应用研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:wilsonpfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今的社会是个信息和科技非常发达的社会,随着信息化建设的不断发展,各行各业都有大量的数据被存储在各种数据仓库中,而且数据量每天都在不断以惊人的速度增加,数据种类繁多,如何有效利用这些信息,为本行业提供有用的决策信息,从大量数据中挖掘出有用的数据信息进行提炼和加工,为企业领导提供集成化和历史化的数据,为企业全局的策略决策和长期趋势分析提供更有效的支持,已成为企业生存与发展至关重要的环节。在大型油田中,积累了大量的数据,激增的数据背后隐藏着许多重要的信息,怎样从这些大量数据中提取出有用的信息和知识,更好地为油田的发展提供帮助成为迫切需要,而数据挖掘技术的出现正好解决了这一问题。 数据挖掘是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,这些规则蕴涵了数据库中一组对象之间的特定关系,提出一些有用的信息,为经营决策、市场策划、金融预测等提供依据。数据挖掘是人工智能领域的一门重要的学科,也是数据库系统和新的数据库应用的一个有希望的、欣欣向荣的学科前沿。它又称为数据库中知识发现(KDD),其任务是从数据中发现模式,是自动的或方便的模式提取,这些模式代表隐藏在大型数据库、数据仓库或其他大量信息存储中的知识。它是一个多学科领域,从多个学科汲取营养。这些学科包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化。在对大规模科学数据进行处理时,往往会因为其具有规模大、特征复杂的特点,使得理解、分析这些科学数据,并从中获取知识变得十分困难,由此数据挖掘势在必行数据挖掘常采用的算法及理论有粗糙集、神经网络等。粗糙集理论是Pawlak教授在20世纪80年代提出的一种处理不确定性和含糊性知识的数学处理工具,它能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。可以方便地描述知识表示中不同属性的重要性,减少知识表示空间的维数。知识约简是其中的核心内容,是在保持分类能力基本不变的情况下,获得系统的约简属性和分类规则。随着数据挖掘在各个领域内的展开,各种数据挖掘技术开始向深层次发展,神经网络数是最为常用的算法之一,神经网络技术是一种起源于仿生的技术,神经网络的构建目前尚未有比较成熟的理论来指导,一般只是用试探寻优的方法来实现,但是关于神经网络的学习训练则有比较成熟的理论指导。在本文讨论的前向型神经网络中是最为典型的BP算法,目前关于对BP算法的改进研究也比较流行。随着计算机技术的发展,人们只需要几个函数几行代码就可以应用先进的神经网络技术,而不用去理解详细的神经网络原理,这使人们能够省下很多时间,把更多的精力放在对所要解决问题的研究上。因此神经网络的应用也得到了很大的普及。神经网络具有并行处理、网络全局、信息分布存储等特点,同时具有较好的抑制噪声干扰的能力。 粗糙集对数据进行约简,能消除样本中的冗余对象,但泛化能力不强,易受噪声干扰,神经网络具有抗噪声数据能力强、高正确率、计算的错误率低,较强的学习能力等优势,可根据一定的学习算法自动地从训练实例中学习并得到规则。在数据挖掘中单纯使用粗糙集方法会受噪声干扰而直接影响分类精度,单纯使用神经网络会因输入空间维数较大使网络结构复杂且训练时间长的问题。本文融合粗糙集和神经网络各自的优势,粗糙集可以弥补神经网络不能确定哪些知识是冗余的,哪些知识是有用的,训练时间过于漫长的局限性,而神经网络可以弥补粗糙集的不足,将粗糙集理论和神经网络方法相结合进行研究。 论文的主要内容包括: (1)在阅读相关文献的基础上,对数据挖掘进行阐述,介绍了粗糙集和神经网络的概念。 (2)提出了一种改进的粗糙集算法,新算法相对一般算法的优点在于能快速得到一个较优的约简。给出改进算法的过程描述和代码实现。 (3)综述了神经网络的基本特性和原理,介绍BP神经网络的结构和学习算法。融合粗糙集和神经网络各自的优势,给出了粗糙集和神经网络相结合的结构设计和算法实现。 (4)把改进的粗糙集和BP神经网络应用于已完成的实际项目:中原油田生产信息系统中,结果表明能更准确地预测油田的产量,效果良好。
其他文献
目标轨迹分析是计算机视觉的一个重要问题,涉及到模式识别与智能系统、图像处理、统计学、机器学习等多个领域内容。经过近二十年深入的研究和发展,目标轨迹分析技术已经在安防
非线性代数方程组的求解是一个基本而重要的问题,很多实际问题最终都可以转化为非线性代数方程组的求解问题。在现代计算机代数领域中,求解非线性方程组一般有三种方法:Groebner
社会心态是一段时间内弥散在整个社会或社会群体中的宏观社会心境状态,是整个社会的情绪基调、社会共识和社会价值取向的总和。当前对心态感知方法,以主观自评的问卷调查方法为
随着计算机科学与技术的普及和应用,特别是近年来,数据库技术和信息技术的蓬勃发展,人们产生和收集了大量的数据,但是如何从中发现有价值的信息,达到为决策服务的目的,成为了一个非
传统的统计学研究的是假定样本数目趋于无穷大时的渐近理论,现有的机器学习方法大多是基于这个假设。然而在实际的问题中,样本数往往是有限的。现有的基于传统统计学的学习方法
数字媒体技术的进步和数字内容产业的飞速发展,给人们的生活方式和经济的发展模式带来一系列重大的变革.然而,数字内容的便利性--易于拷贝和分发,却造成了对内容版权的损害,
随着无线通信技术的发展,无线网络结构从传统的集中式向多跳中继结构过渡,无线多跳中继网络具有动态拓扑、分布式控制、协作传输以及多径等诸多优点,使其成为未来无线网络的
随着机群系统的普及和商业应用的流行,越来越多的商业应用被部署到机群系统中.由于商业应用在社会中扮演重要的角色,这些应用服务的可用性和服务质量一直被广泛关注.与此同时
遗产代码系统是指那些运行多年,承担用户的关键业务,并且随着计算平台的变迁和业务需求的发展不断进行维护和更新的软件系统.遗产代码维护人员的短缺,以及现代计算环境的变迁
学位