论文部分内容阅读
当今的社会是个信息和科技非常发达的社会,随着信息化建设的不断发展,各行各业都有大量的数据被存储在各种数据仓库中,而且数据量每天都在不断以惊人的速度增加,数据种类繁多,如何有效利用这些信息,为本行业提供有用的决策信息,从大量数据中挖掘出有用的数据信息进行提炼和加工,为企业领导提供集成化和历史化的数据,为企业全局的策略决策和长期趋势分析提供更有效的支持,已成为企业生存与发展至关重要的环节。在大型油田中,积累了大量的数据,激增的数据背后隐藏着许多重要的信息,怎样从这些大量数据中提取出有用的信息和知识,更好地为油田的发展提供帮助成为迫切需要,而数据挖掘技术的出现正好解决了这一问题。
数据挖掘是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,这些规则蕴涵了数据库中一组对象之间的特定关系,提出一些有用的信息,为经营决策、市场策划、金融预测等提供依据。数据挖掘是人工智能领域的一门重要的学科,也是数据库系统和新的数据库应用的一个有希望的、欣欣向荣的学科前沿。它又称为数据库中知识发现(KDD),其任务是从数据中发现模式,是自动的或方便的模式提取,这些模式代表隐藏在大型数据库、数据仓库或其他大量信息存储中的知识。它是一个多学科领域,从多个学科汲取营养。这些学科包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化。在对大规模科学数据进行处理时,往往会因为其具有规模大、特征复杂的特点,使得理解、分析这些科学数据,并从中获取知识变得十分困难,由此数据挖掘势在必行数据挖掘常采用的算法及理论有粗糙集、神经网络等。粗糙集理论是Pawlak教授在20世纪80年代提出的一种处理不确定性和含糊性知识的数学处理工具,它能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。可以方便地描述知识表示中不同属性的重要性,减少知识表示空间的维数。知识约简是其中的核心内容,是在保持分类能力基本不变的情况下,获得系统的约简属性和分类规则。随着数据挖掘在各个领域内的展开,各种数据挖掘技术开始向深层次发展,神经网络数是最为常用的算法之一,神经网络技术是一种起源于仿生的技术,神经网络的构建目前尚未有比较成熟的理论来指导,一般只是用试探寻优的方法来实现,但是关于神经网络的学习训练则有比较成熟的理论指导。在本文讨论的前向型神经网络中是最为典型的BP算法,目前关于对BP算法的改进研究也比较流行。随着计算机技术的发展,人们只需要几个函数几行代码就可以应用先进的神经网络技术,而不用去理解详细的神经网络原理,这使人们能够省下很多时间,把更多的精力放在对所要解决问题的研究上。因此神经网络的应用也得到了很大的普及。神经网络具有并行处理、网络全局、信息分布存储等特点,同时具有较好的抑制噪声干扰的能力。
粗糙集对数据进行约简,能消除样本中的冗余对象,但泛化能力不强,易受噪声干扰,神经网络具有抗噪声数据能力强、高正确率、计算的错误率低,较强的学习能力等优势,可根据一定的学习算法自动地从训练实例中学习并得到规则。在数据挖掘中单纯使用粗糙集方法会受噪声干扰而直接影响分类精度,单纯使用神经网络会因输入空间维数较大使网络结构复杂且训练时间长的问题。本文融合粗糙集和神经网络各自的优势,粗糙集可以弥补神经网络不能确定哪些知识是冗余的,哪些知识是有用的,训练时间过于漫长的局限性,而神经网络可以弥补粗糙集的不足,将粗糙集理论和神经网络方法相结合进行研究。
论文的主要内容包括:
(1)在阅读相关文献的基础上,对数据挖掘进行阐述,介绍了粗糙集和神经网络的概念。
(2)提出了一种改进的粗糙集算法,新算法相对一般算法的优点在于能快速得到一个较优的约简。给出改进算法的过程描述和代码实现。
(3)综述了神经网络的基本特性和原理,介绍BP神经网络的结构和学习算法。融合粗糙集和神经网络各自的优势,给出了粗糙集和神经网络相结合的结构设计和算法实现。
(4)把改进的粗糙集和BP神经网络应用于已完成的实际项目:中原油田生产信息系统中,结果表明能更准确地预测油田的产量,效果良好。