若干数据流挖掘算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:luohai8899
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,是从大量原始数据中提取知识的过程.由于其在现实生活中的广泛应用,数据挖掘领域在研究方面已有很大发展.然而,在一种新的数据环境中,即数据流环境中进行挖掘是一项具有挑战性的工作.近年来涌现的许多应用促进了数据流模型的提出,这些应用包括电子商务、通讯数据管理、股票数据分析等.这些应用中产生的数据源源不断地到来,因此只能按顺序进行处理,而且数据量是无穷的.传统的数据挖掘算法只能处理静态数据库,因此对这种大量的、无穷无尽的数据流是无能为力的.该文提出了一系列数据流挖掘算法.这些算法只扫描一遍数据,并且维护一个最新的模型,处理每条数据的时间较短且基本恒定,所需内存量也是固定的.重点研究了三种知识类型的挖掘,包括聚类、频繁模式和分类模式的挖掘,提出了三个算法来解决在数据流环境中挖掘这些知识的问题.首先,设计并实现了一个基于密集单元检测的单遍扫描、增量更新的数据流聚类算法.这种方法在时间和空间上都是高效的,并且易于给出在线应答和离线分析.该算法根据局部性原理从局部密集单元中发现密集单元,然后在密集单元上进行聚类,聚类结果能及时进行更新.此外,可以发现任意形状的聚类并可以消除噪声.此外,提出了一种挖掘数值型数据流中最大频繁模式的有效方法.采用基于距离的方法将数据离散化,并重新定义了最大频繁模式的概念,并在此基础上设计了一种新的算法.该算法用聚类的方法产生频繁项,通过增量更新及时快速地输出最大频繁模式.最后,提出了用加权的组合分类器方法来构造高质量、及时更新的分类模型.在连续到来的数据流的多个数据块上训练出多个分类器,根据分类器的建立时间和分类精度赋予它们不同的权重.这些分类器组合在一起进行预测,可以比单分类器获得更高的精度.在真实数据集和生成数据集上做了大量的实验.实验结果表明了这些算法是高效、有效和敏锐的.
其他文献
车辆牌照识别系统是一个基于图像处理、人工智能、模式识别等技术的高度智能的自动化系统.它可以广泛地应用在公路和桥梁自动收费管理系统,公路流量观测系统,城市车辆安全监
随着互联网的高速发展,人们可获取的数据量不断增大,大部分的数据是文本格式的数据,如何快速、准确、全面的从大量的数据中寻找到所需要的信息内容,已经成为了一项十分有意义
基于小波的图像压缩是极具挑战性的课题,它在理论和实践中的潜在的价值一直激励着科研人员的不懈努力和探索研究.该文将小波引入到人脸的图像压缩中,并结合身份证上的人脸图
随着信息技术的发展和网络化经济的快速进步,传统的商业模式发生了根本性的变化,产品的同质化倾向使企业经营模式从原有的以产品为中心逐渐转变为以客户为中心,如何把握客户
随着计算机科学发展,Agent在人工智能和计算机科学界的地位变得日益重要.学术界和工业界的研究人员越来越重视Agent系统的理论研究和应用研究.Agent能够模拟人类的行为,具有
随着经济全球化和知识经济时代的到来,以追求企业整体效益的集成化和智能化的现代集成制造系统(CIMS)逐渐发展起来.CIMS的概念扩展至流程制造企业,即形成了流程工业计算机集
信息安全评估技术是随着Internet信息化飞速发展而产生、随着网络信息安全问题日益严峻而逐步发展壮大的一门技术.由于不同领域根据不同方法对这门技术的评估结果各有侧重不
随着计算机网络的迅猛发展,各种高速通讯设施争相出现,网络环境也变得越来越复杂,人们可以方便的获取自己想要的资料、信息。但高速网络给人们在生活、工作、学习中带来便利的同
随着技术的发展及数码产品的普及,图像与视频等视觉信息呈现出爆炸式的增长趋势,如何有效的处理海量的视觉信息并获得符合人类认知的分析结果成为一个重要课题。显著区域检测从
在现实世界里,人们经常需要将自己的某些权力委托给可靠的代理人,让代理人代表本人去行使这些权力.在这些可以委托的权力中包括人们的签名权.委托签名权的传统方法是使用印章