【摘 要】
:
随着数据时代的到来,带有概念漂移的数据流聚类问题已经逐渐成为了数据挖掘领域的一个研究热点。实际应用领域如智能电网配电研究,信用卡欺诈分析、网络病毒入侵检测、消费者购
论文部分内容阅读
随着数据时代的到来,带有概念漂移的数据流聚类问题已经逐渐成为了数据挖掘领域的一个研究热点。实际应用领域如智能电网配电研究,信用卡欺诈分析、网络病毒入侵检测、消费者购物倾向分析等都涉及到概念漂移检测的问题。数据流挖掘模型要求算法快速、及时对数据进行处理分析,同时适应、处理数据流中出现新的概念。本文针对发生概念漂移的数据流的特点,提出一种基于概念漂移检测与系统更新的数据流聚类模型,对数据流聚类模型处理概念漂移和模型更新的问题进行研究分析。在研究分析中主要进行以下工作: (1)基于模糊C均值聚类算法与熵理论的概念漂移检测算法。该算法以模糊C均值聚类为基础,对数据流进行模糊聚类处理,利用模糊理论中隶属度的概念,得到数据流的信息熵,使用信息熵检测数据流是否发生概念漂移。 (2)基于相关系数与信息熵的累积式的数据流系统更新机制算法。数据流发生概念漂移,原模型系统的正确率会降低,需要及时对模型进行更新处理,但是,过度频繁的更新同样会造成系统性能下降甚至瘫痪。针对这一问题,本文提出了累积式的模型更新机制。对于微小的概念漂移进行积累,累积数据块的相关系数方差大于阈值时再进行更新。 (3)基于分类器池的概念漂移检测机制。对已出现过的概念模式,使用分类器池机制对其进行存储,进一步完善了聚类模型的概念漂移检测功能,并增强了系统抗概念漂移的能力。实验选取了数据的分布轮廓与中心点两个属性构成分类器池中的类别模式,并验证了聚类模型的有效性。 本文针对数据流的动态变化性,提出了基于模糊理论与熵理论的数据流概念漂移检测的算法以及基于相关系数的累积式的数据流聚类模型更新机制,并且引入分类器池的概念进一步完善模型的概念漂移检测功能,建立了既能及时检测数据流概念漂移又能避免过适应更新的聚类模型,并利用该模型对有概念漂移的仿真数据和真实数据进行测试,本文提出的方法检测出了概念漂移并对模型做出了更新判断。
其他文献
网格将地理上分散的、属于不同管理机构的各种资源通过网络连接起来,提供给用户一个高可靠、高性能、可透明访问的统一计算环境,被称为是继互联网和Web之后的第三个信息技术浪
通过对武汉天河机场附近5种生境、11条样带的99次考察,记录到鸟类111种,分别属于13目35科,发现一种湖北省新记录——东方鸻。种数最多的目是雀形目,占总科数的45.7﹪、总种数的48.6
在蛋白质的非静脉给药制剂研究中,口服剂型虽然困难但颇受关注.该室研制的重组葡激酶(r-Sak)是一种纤维蛋白特异的溶栓药物,分子量较小(MW-15kD),稳定性好,适合进行口服吸收
该课题利用分子生物学手段,通过噬菌体展示七肽库淘选出与目标蛋白重组人肿瘤坏死因子(rhTNF)结合的噬菌体克隆,然后提取其DNA模板,测出DNA列,从而推断与目标蛋白相互作用的
该研究选择大鼠BRUCE基因的cDNA序列BIR功能区设计引物,通过RT-PCR的方法,首先在人胚胎脑组织中扩增到人BRUCE基因的cDNA片段,经序列测定及同源性比较,显示该片段与小鼠及在
羊口疮病是由羊口疮病毒引起的一种高发病率、传播速度快的传染病,本文介绍了羊口疮病的病原、临床症状以及诊治措施,意在为临床上解决羊口疮病提供借鉴,同时减少因羊口疮病
该工作通过酚-氯仿一步法分离玉米叶片总RNA,紫外分光光度法测得OD/OD的比值为1.98接近2.00,电泳检测显示28S、18S条带清晰,而且28S的亮度明显大于18S.双链cDNA经过Sfi(AandB
目的:本研究比较不同周龄自发性高血压大鼠(spontaneously hypertensive rat,SHR)肾叶间动脉缝隙连接功能和表达差异,探讨缝隙连接蛋白在高血压病肾脏动脉血管中的变化。方法:选
该课题研究对象即是来源于小鼠胸腺基质细胞系的两个克隆株,4(5)号细胞和4(12)号细胞,它们在体外诱导前体T细胞表达TCRαβ及CD3分子或产生趋化因子等功能方面有所差 异,并且
药用野生稻由于结实率低、落粒性强,难以利用种子保存繁殖.为了进一步在育种中有效地利用药用野生稻抗虫、抗病、抗旱、分蘖力强等优良特性,本研究利用药用野生稻幼穗,通过离