【摘 要】
:
数据丰富而知识贫乏的状况导致了数据挖掘的出现,并且在短短的几年内,引起了许多领域的人们的极大兴趣。分类作为数据挖掘的一个重要主题,在统计学、机器学习、神经网络和专家系
论文部分内容阅读
数据丰富而知识贫乏的状况导致了数据挖掘的出现,并且在短短的几年内,引起了许多领域的人们的极大兴趣。分类作为数据挖掘的一个重要主题,在统计学、机器学习、神经网络和专家系统中得到了较早的研究,但其中大部分都是内存驻留算法,通常假定数据量很小。随着数据库中数据量和维数越来越大,建立高效的、适用于大型数据库的分类算法已成为数据挖掘的一个挑战性问题。 近年来,数据挖掘界提出一种新的知识模式,称作跳跃显露模式(Jumping Emerging Patterns,JEP),用来表示两个数据集之间的重大差异。并且,建立了一些基于JEP的分类算法。研究表明,这些基于JEP的分类算法具有很好的预测准确性,并且在数据量和维数上都是可规模化的。 但是,这些基于JEP的分类算法通常需要挖掘大量的JEP,因此影响了它们的效率,并增加了分类算法的复杂性。本文提出一种特殊类型的JEP,称作最有效的跳跃显露模式(most Significant Jumping Emerging Patterns,SJEP)。分析结果表明,SJEP具有很强的区分能力,足以用来建立精确的分类算法。由于已有的算法都不能直接挖掘这种SJEP,本文给出了一种可以在两个数据集上双向挖掘SJEP的有效算法,并讨论了如何建立基于SJEP的分类算法(SJEP_Classifier)。 与已有的基于JEP的分类算法相比,仅使用SJEP建立的分类算法使用的JEP数量少得多,不仅能够获得相同或更高的预测精度,而且可以在很短的时间内(通常为若干秒)完成学习阶段。实验结果表明,本文的分类算法(SJEP_Classifier)在平均预测精度方面也优于CBA和C4.5等分类算法。
其他文献
虚拟现实技术的发展需要获取虚拟环境中各实体的三维模型。而基于图象的建模技术是近年来兴起的一种备受关注的物体三维建模方法,试图从二维图象数据出发获得特定物体的三维
随着Internet技术的飞速发展,大量图像数据也随之产生,如何快速而准确地从海量的多媒体数据库中检索到用户需要的信息已成为一个亟待解决的问题。基于内容的图像检索技术正是
随着Internet的迅猛发展,现代语音通信、视频通信及实时数据通信的Internet实现正日益收到人们的重视,网络实时多媒体服务已逐步成为当今Internet发展的大趋势.同时计算机安
目前因特网上的实时流媒体(视频、音频)应用一直呈快速增长趋势。从端到端的角度考虑,这些应用中的通讯延时、传输带宽和数据丢失等性能指标需要良好的QoS支持。由于现有流媒
首先,该文从OLAP数据仓库的概念入手,详细阐述了OLAP及其组成(多维数据结构、数据立方体)的概念和特征,并介绍了OLAP数据仓库的系统结构和理论设计实现方法.其次,该文研究了O
基于万维网的远程教育是当前Internet应用的热点,教学资源的组织和发布是其中的一项关键技术。本文对基于B/S模式的课件实现所涉及的基本技术作了一些研究,重点探讨了如何利用这
该文在充分研究已有的教学设计理论成果的基础上,提出一个网络环境下的智能化远程教学模型.它根据学生的学习状态和学习特点,通过智能系统的搜索与推理,动态生成适合于学生个
近年来,文语转换系统产生了巨大的商业和学术影响.文字到语音的转换是一个复杂的过程,它的主要功能是能将计算机中任意出现的文字,转换成自然流畅的语音输出.它使得计算机不
随着因特网和其它在线信息资源的迅猛发展,各种形态的数字化信息的数量和规模以极快的速度增长,其中80﹪以上的信息以文本的形式存在.面对如此大量的文本信息,人们迫切要求能够
遗传算法已经被证明是一种非常有效的设计模糊规则和隶属函数的方法.在该文中,我们分析几种不同的将遗传算法和模糊系统相结合的模型,并给出他们的相关优缺点的总结.这些工作