【摘 要】
:
伴随着数据库技术的快速发展以及数据获取技术手段的提高,数据信息量急剧膨胀并呈现多样化趋势,如何揭示这些数据背后所隐含的重要信息成为人们关注的焦点。在这种情形下,数
论文部分内容阅读
伴随着数据库技术的快速发展以及数据获取技术手段的提高,数据信息量急剧膨胀并呈现多样化趋势,如何揭示这些数据背后所隐含的重要信息成为人们关注的焦点。在这种情形下,数据挖掘技术应运而生。经过二十多年的时间,数据挖掘系统得到了很大发展,作为数据挖掘系统的核心部件,算法库也获得了较大的进步,但其目前在通用性、扩展性等方面仍存在不足:首先,数据挖掘系统之间无法实现算法库共享;其次,当挖掘系统更新时,无法对算法库进行升级;最后,对算法库的二次开发要做很多重复性的工作,从而造成大量人力物力的浪费以及开发成本的增加。
针对上述问题,在分析现有数据挖掘系统算法库的基础上,基于可复用性思想,提出一种独立于任何数据挖掘系统的算法库DMAL(Data Mining AlgorithmsLibrary)模型。首先,从技术可行性上对该算法库模型进行论证;其次,基于可扩展性思想,设计算法库的总体结构;再次,在算法库的具体设计方面,利用元数据技术以及XML技术对算法及其参数信息进行管理,便于对其进行控制,从而实现算法库与挖掘系统其他组件之间的灵活交互;利用映像和元对象协议对算法进行匹配调用,较好地体现算法库的可扩展性及可复用性。
在数据挖掘算法库DMAL模型的基础上,构建算法库原型系统。首先,利用UML可视化建模思想,分析设计算法库原型的用例图、静态行为模型以及动态行为模型;然后,采用JAVA编程语言、MVC设计模式,在开源软件Eclipse平台上,开发图形界面化算法库原型系统,实现算法的示例调用和管理,提供友好的用户界面,便于对系统进行管理维护和升级。通过原型的实现,为进一步实现数据挖掘算法库系统的强大功能提供一定的参考价值。
其他文献
在网络数据交换日益增多的今天,XML作为一种半结构化数据以其简单易标记和跨平台等优点被越来越广泛的应用到数据存储和数据传输领域,成为Internet上的主要的数据表示和交换
本文对数据缺失和网络结构未知情况下学习贝叶斯网问题进行了相关研究,并提出了几个有趣有效的解决方案。首先,利用并行策略下的PACOB算法提供良好候选网络结构,并借此构造新
P2P和内容分发网络(Content Delivery Network,CDN)技术是当前互联网上实现内容传递的两种主流技术。内容分发网络的核心是将互联网内容提供商(Internet Content Provider,IC
目前,部分高校的信息化工作,已经走出了单纯的网络建设和网站建设的阶段,而着手进入了信息资源的整合、开发和利用的新阶段。针对国内高校数字化校园现状,各个部门中存在着许
故障诊断是通过从故障征兆空间到故障空间的映射,实现对故障的识别和诊断。然而,复杂系统经常处在动态变化的过程中,其行为特点不好把握,各种故障的发生具有很强的不确定性,
从上个世纪90年代以来,人脸识别技术的研究一直是模式识别领域的研究热点,现有的大多数人脸识别技术使用的图像源是灰度的,只有256种灰度级别,然而,在实际应用中,人脸识别系
随着计算机技术和网络技术的飞速发展,Internet上汇集了成千上万的各类资源:文件资源、计算资源、存储资源等等。P2P技术是一种能够充分整合与利用这些资源的利器。考察当前P2
无线传感器网络由大量具有数据感知、信息处理和无线通信能力的传感节点组成,节点间以无线多跳的无中心方式连接。它集合了传感测量、微电机系统、嵌入式计算以及网络通信等
初中思想品德老师都知道,书上的概念好背、道理易懂,但我们的学生遇到实际问题,践行正确价值理念的行动却很欠缺。学生群体中暴露出的冷漠情绪、消极心理、不良行为,常让我们初中
作为数学教师,我们可能都有过这样的经历和困惑,就是某种类型的问题曾经对学生讲过,甚至还不止讲过一次,但到考试再次出现类似的问题时,正确率并没有我们想象的那么高,有的学生还是