【摘 要】
:
在许多的应用领域中,如电子商务、入侵监控、物联网环境监控等,正在以惊人的速度产生大量的数据流,其中蕴含着丰富的有价值信息。对这些海量数据的提取、处理以及进一步的分析是当前数据挖掘领域的一大研究热点。与一般数据环境相比,数据流具有高速到达、海量数据特点,传统数据挖掘策略无法较好适应其环境。因此,在这种复杂环境下,采用合理的学习策略是数据流挖掘领域中的重点。数据流中的分类问题主要存在以下挑战:第一,数
论文部分内容阅读
在许多的应用领域中,如电子商务、入侵监控、物联网环境监控等,正在以惊人的速度产生大量的数据流,其中蕴含着丰富的有价值信息。对这些海量数据的提取、处理以及进一步的分析是当前数据挖掘领域的一大研究热点。与一般数据环境相比,数据流具有高速到达、海量数据特点,传统数据挖掘策略无法较好适应其环境。因此,在这种复杂环境下,采用合理的学习策略是数据流挖掘领域中的重点。数据流中的分类问题主要存在以下挑战:第一,数据流数据分布的变化多样且未知性,导致了分类器的分类性能损失;第二,数据流中类别分布不平衡现象,对学习策略的要求进一步加大;第三,数据流中的噪声数据往往对分类模型的选择策略造成不同程度的干扰。本文将围绕上述问题,对复杂环境下数据流的自适应学习策略进行了研究,主要工作包括:(1)提出了基于深度属性加权的自适应集成策略,改善对具有噪声干扰的数据流环境适应性。该策略采用增量式学习和集成学习机制。依据不同属性值对分类贡献进行局部加权,并设计了动态自适应阈值,同时组合分类器置信度和分类器精度权重的双重权重策略,进一步改善对基分类器的权重分配。有效控制噪声数据或无关属性干扰,并改善对概念漂移适应性。通过合成数据集以及真实环境数据的实验验证表明,集成策略在分类精度具有一定提高,对概念漂移适应能力有所改善。(2)提出了基于增量式双层聚类的不平衡学习策略,解决具有概念漂移环境下不平衡数据流分类问题。增量式处理时对少数类实例实现快速聚类,同时对多数类实例进行欠采样,以形成双层聚簇模型,保留具有多样性的聚簇,同时平衡各个聚簇的数据并降低存储空间。并引入多阈值策略,辅助双层聚簇模型进行预测,同时用于检测可能存在的概念漂移,以便动态更新现有的模型。在合成数据集及真实数据下的实验结果显示,不平衡学习策略在分类精度和几何均值(G-mean)上具有一定的提高(最好分别提升4%和7%左右),对具有概念漂移的不平衡环境适应能力更强。
其他文献
采用铸铁屑内电解法处理餐饮废水,考察了反应条件对除油率的影响。结果表明,不需调节原水的pH值,选用10~16目的铸铁屑,在其投量为100g/L、反应时间为45min、温度约为30℃的条件下,铸
文章以吉隆坡新捷运工程地下北段A标工程为例,基于Horn的三维楔形体破坏理论,采用极限平衡分析法,推导出了在土压及全水头压力作用下满舱土、半舱土、无土三种状态下土舱压力
党的十八大、十九大以来,学者们在新时代语境下对中华传统文化创造性转化的研究呈现快速发展的态势。当前,学术界在现实逻辑、多重挑战、多维路径等方面对传统文化创造性转化
随着医院智能化水平的不断发展,越来越多的智能化系统运用到了医院的各个环节中。详细分析了医院智能化系统的特点,提出了医院智能化系统的建设目标,设计了基于服务类型的医院智
<正>长三角科技资源共享服务平台日前正式开通上线,只要登录其官网就可以足不出户纵览长三角科技资源信息并预约使用。仪器预约、研发托管、政策资讯、科技社群、培训活动等
互联网作为信息获取的重要渠道,包含内容广,传播速度快,在网路信息安全方面存在一个日益的问题一些用户为了避免网络过滤系统对信息文本内容的搜索和检查,故意将一些不良、非
以4~10年生‘绿岭’核桃树为试材,研究了核桃的开花物候期,不同树龄不同结果母枝雌雄花芽构成比例以及不同时期喷施不同浓度石硫合剂对雌花座果的影响。结果表明:‘绿岭’核桃
数据流分类问题是数据挖掘领域中重要的研究方向之一,其主要特征为数据序列以流的形式不断地产生,如传感器网络异常检测、信用卡欺诈行为监测、天气预报和电价预测等实际问题
高校实行学分制收费,就是规定每学分的学费标准,根据学生实际选修学分数量的多少计算学费。学分制与导师制、班建制合称为世界三大教育收费模式。文章从学分制的起源说起,分
近年来随着大数据和云计算的迅速发展,在互联网等方面源源不断地产生大量的数据流。学者们为了获取并分析这些领域的数据流中隐含的大量的有用信息,为此对数据流挖掘领域展开了深入研究。然而,静态数据与数据流并不完全相同,数据流的特点是快速性、连续性、多变性、无限性等。特点的不同决定了数据流挖掘算法并不能完全沿用传统的数据挖掘算法。不仅如此,数据流中会产生概念漂移现象即数据的分布会随着时间的变化而随之变化,这