基于数据仓库的多策略通用数据采掘工具MSMiner

来源 :中国科学院计算技术研究所 | 被引量 : 7次 | 上传用户:wudingyong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术的飞速发展和广泛应用使当今社会积累了大量的数据,然而各种有用信息却被深埋在数据背后,难以为人们所用。因此研究如何从大量的数据中智能地、自动地采掘出有价值的知识和信息,具有十分重要的现实意义。 本文研究了如何结合数据仓库和数据采掘技术,提供多策略的、快捷有效的数据采掘手段,并在此基础之上实现了多策略通用数据采掘工具MSMiner。 论文研究了如何利用元数据统一管理和控制数据仓库和数据采掘任务,并提出了一种面向对象的元数据结构,将经过良好封装的元数据对象以层次结构组织起来,形成一种元数据对象模型,通过这种元数据对象模型统一存取和管理元数据,从而使系统具有良好的一致性和可维护性。 我们在文中讨论了如何设计实现一种简单但有效的数据仓库平台。该平台提供多种有效手段从各种外部数据源中抽取和集成数据,以主题为单位组织数据,并按星型模式建模,同时提供了有效的OLAP和可视化功能,为数据采掘任务提供经过良好预处理的数据来源。 本文提出了一种面向对象的数据采掘任务模型。数据采掘任务的每个步骤都用对象来表示,每个对象包含定义自身特征的属性和定义自身行为的方法,其中方法脚本用我们自定义的DML语言编写,各个步骤对象通过有向图结构组织起来,形成数据采掘任务模型。通过这种任务模型能够有效表达各种数据采掘任务。MSMiner系统实现了可视化的任务编辑环境,并提供了功能强大的任务处理引擎,能够快捷有效地实现各种数据采掘任务。 我们还设计了一种可扩展的算法库,以动态连接库DLL的方式集成各种数据采掘算法,并设计了开放的接口,能够灵活扩展用户自定义算法。 最后,论文介绍了MSMiner运用决策树方法在广东地税税务稽查计算机选案系统中的实际应用。
其他文献
由于不同的硬件平台、网络环境,操作系统,GIS开发平台以及数据库的差异,导致各部门建立起来的GIS系统成为“信息孤岛”,难于实现各GIS系统之间的互操作和互运算,无法达到资源共享
互联网的普及和发展,特别是近年来移动互联网的发展,智能移动设备的流行,使得人们对于网络,尤其是移动互联网的依赖程度越来越高。网络已经成为人们获取信息的重要途径。于是
虽然数据库的应用已有30余年的历史,数据库中也积累了大量的数据,但数据挖掘却是20世纪80年代后期兴起的一门学科。这门学科的发展主要是应用驱动的结果。随着各行各业,特别是商
现有的网络管理软件需要真实的网络环境作为支撑,实现网络监视和管理的功能。如果在真实的网络环境中进行网络管理软件的开发和测试,不仅需要耗费大量人力物力进行网络环境的